JP6956337B2

JP6956337B2 - 関連性の検出及びレビューのためのコンテンツの対話型表現

Info

Publication number: JP6956337B2
Application number: JP2020545235A
Authority: JP
Inventors: マークロバートクロマック
Original assignee: コギインコーポレーティッド
Priority date: 2017-11-18
Filing date: 2018-11-14
Publication date: 2021-11-02
Anticipated expiration: 2038-11-14
Also published as: CN111615696A; WO2019099549A1; EP3710954A1; US20190156826A1; JP2021503682A

Description

本明細書は、音声、視覚及びテキストベースのコンテンツから重要な情報を抽出すること、特に迅速且つ効率的なコンテンツのレビューを支援するように抽出情報を表示することに関する。

音声、ビデオ及び／又はテキストベースのコンテンツは、制作及び配信が一層容易になっている。多くの業務、娯楽及び個人使用のシナリオにおいて、容易に吸収及び処理され得るよりも多くのコンテンツがユーザに提示されるが、多くの場合、コンテンツの一部のみが実際の集中調査に関連し、かかる集中調査の価値がある。本開示の所有者が制作したＣＯＧＩ（登録商標）システム等のシステムは、ユーザの時間及び労力を節約するためにＡ／Ｖコンテンツの重要な部分を識別及び抽出するためのツールを提供する。コンテンツ解析及び情報抽出の更なるレベルがユーザにとって有益且つ望ましい可能性がある。

本明細書に記載する実施形態の例は、革新的な特徴を有し、その何れの単一の１つも、それらの所望の特質について必須であるか又はその責任を単独で負うものではない。特許請求の範囲を限定することなしに、有利な特徴の一部をここで要約する。

一部の実施形態では、コンテンツ抽出及び表示方法（プロセス）が提供され得る。かかる方法（プロセス）は、コンテンツを解析可能な部分にセグメント化し、かかるセグメント内及びかかるセグメントにわたるコンテンツの関連性をランク付けし、且つランクの高い抽出をグラフィカルクラウド形式で表示するための様々な機能を含み得る。一部の実施形態におけるグラフィカルクラウドは、コンテンツが再生、取得又はレビューされるにつれて動的に更新される。抽出される要素は、単語、句、非言語の視覚的要素又はアイコン及びグラフィカル表示に適合するデータオブジェクトを伝達する多くの他の情報の形式であり得る。

本開示では、クラウド要素は、グラフィカルクラウドを構成する視覚的コンポーネントであり、クラウドレンズは、表示され得る潜在的なクラウド要素の組を定め、クラウドフィルタは、何れのクラウド要素が表示されるかに優先順位を付けるために使用されるランキングを定める。

コンテンツソースから関連情報を抽出及び表示するための方法（プロセス）が提供され得、この方法（プロセス）は、リアルタイムストリーム又は事前記録されたストアの少なくとも１つからコンテンツを取得すること、セグメントの持続時間又は長さの少なくとも１つを定めるクラウドレンズを指定することであって、セグメントは、時間順又はシーケンス順のクラウド要素の全ての少なくとも１つ又はその総数の少なくとも１つのサブセットを含む、指定すること、少なくとも１つのクラウドフィルタを適用して、所与のセグメントに関連する各クラウド要素の有意性のレベルをランク付けすること、選択された所定のクラウド要素密度に基づいて、所与のセグメントのグラフィカルクラウドに使用されるクラウド要素の数を定めること、フィルタリングされたクラウド要素で構成されるコンテンツから導出される視覚化を含む少なくとも１つのグラフィカルクラウドを構築すること、及びセグメントを通してクラウドレンズをスクロールして、有意なクラウド要素のグラフィカルクラウドを表示することを含む。

一実施形態では、クラウド要素は、変換又は解析の少なくとも１つを通してソースコンテンツから導出され得、且つ発話若しくは記述の少なくとも１つの単語若しくは句、表現された感情、話者の意図、話者のトーン、話者の語尾変化、話者の気分、話者の変更、話者の識別、オブジェクトの識別、導出された意味、アクティブジェスチャ、導出されたカラーパレットを表す単語、単語句、完全な文、アイコン、アバター、絵文字を含むグラフィカル要素又はソースコンテンツ若しくは変換コンテンツの変換及び解析を通して導出され得る他の物質的特性の少なくとも１つを含む。別の実施形態では、スクロールは、セグメントを通して実行され得、セグメントは、連続するか又は重複するかの何れかであるクラウド要素の群によって定められる。

一実施形態では、クラウドフィルタは、指定されたクラウドレンズセグメント内の出現数、コンテンツサンプル全体にわたる出現数を含むクラウド要素の頻度、単語の重み、文字数、音節数等を含む複雑性、文法ベース、品詞、キーワード、用語抽出、文脈に基づく単語の意味、文の境界を含む構文、感情又はラウドネス若しくはレベルの変化を含む音声若しくはビデオの振幅の変化の少なくとも１つを含み得る。別の実施形態では、コンテンツは、音声、ビデオ又はテキストの少なくとも１つを含み得る。一実施形態では、コンテンツは、テキスト、音声及びビデオの少なくとも１つであり、及び音声／ビデオは、文字起こし、自動文字起こし又は両方の組み合わせの少なくとも１つを使用してテキストに変換される。

別の実施形態では、変換及び解析は、クラウド要素の要素属性又は要素アソシエーションの少なくとも１つを決定し得、その要素属性又は要素アソシエーションは、品詞タグランクを含むクラウド要素のクラウドフィルタのランク付けを支援するか、又は存在する場合には複数の従属クラウド要素を単一の複合クラウド要素に結合するための基礎を形成することができる。一実施形態では、テキストクラウド要素は、英語について、名詞、固有名詞、形容詞、動詞、副詞、代名詞、前置詞、接続詞、感嘆詞又は冠詞を含む品詞タグを含む要素属性の少なくとも１つを含み得る。

別の実施形態では、テキストクラウド要素は、名詞、形容詞又は副詞を含む品詞属性の少なくとも１つに基づく要素アソシエーション及び代名詞、名詞又は形容詞を含む対応する属性を有するその関連する単語クラウド要素の少なくとも１つを含み得る。一実施形態では、文法に基づくコンポーネントを抽出するための構文解析は、名詞、動詞、形容詞等を含む少なくとも１つの品詞を含む変換出力テキスト、文コンポーネントの構文解析及び文の分割に適用され得、構文解析は、品詞に基づくアソシエーションを含む間接参照を追跡することを含み、それにより要素属性及び要素アソシエーションを定める。

別の実施形態では、固有名称の認識、対応するテキストを決定するための光学式文字認識（ＯＣＲ）の適用又は関係抽出を含む単語間のアソシエーションの少なくとも１つを含む、個々の単語の意味を抽出するための意味解析は、適用され、それにより要素属性及び要素アソシエーションを定める。一実施形態では、デジタル信号処理は、（音声及びビデオについて）発話レベル及び発話レベル範囲を含む信号振幅、ダイナミックレンジ、視覚的ジェスチャ（ビデオ）、話者の識別（音声及びビデオ）、話者の変更（音声及びビデオ）、話者のトーン、話者の語尾変化、人物の識別（音声及びビデオ）、カラースキーム・配色（ビデオ）、ピッチ変動（音声及びビデオ）及び発話速度（音声及びビデオ）の少なくとも１つを含むメトリクスをもたらすために適用され得る。

別の実施形態では、感情解析は、感情状態を推定するために適用され得る。一実施形態では、クラウドフィルタは、コンテンツ変換及び自然言語処理解析からの結果、最高から最低まで優先順位付けされた品詞要素属性：固有名詞、名詞、動詞、形容詞、副詞等に基づき、各クラウド要素に割り当てられる要素ランク因子を決定すること、及びグラフィカルクラウド内の各単語要素について既に決定されている頻度及び複雑性のクラウド要素の有意性ランクに要素ランク因子を適用することを含み得る。

別の実施形態では、この方法（プロセス）は、単語、単語の対、単語の三つ組及び他の単語句を含むクラウド要素のグラフィカル加重を実施することを更に含み得、ランクのより低い要素には落ち着いた色及びより小さいフォントが使用され、ランクのより高い要素にはより鮮明な色及びより大きいフォントのスキームが使用され、最も顕著なクラウド要素に基づく要素ランキングは、最も大きく、最も鮮明で、最も目立つグラフィカルスキームで表示される。一実施形態では、クラウドレンズがコンテンツを通してスクロールされるとき、表示されるセグメントは、１つのセグメントの終わりが次のセグメントの始まりである連続又はアクティブグラフィカルクラウド内で描かれるクラウド要素の増分的に変化する組に基づく、結果として生じるグラフィカルクラウドのほぼ連続的な変換を提供する重複の少なくとも１つであり得る。

別の実施形態では、この方法（プロセス）は、クラウドレンズによって定められるセグメント長をクラウドフィルタのランク付け基準と組み合わせて、表示されるセグメント内のクラウド要素の密度を定めることを更に含み得る。一実施形態では、クラウドフィルタは、所定のキーワードに最も高いランキングを割り当てることを含み得る。別の実施形態では、所定の視覚的処理は、キーワードの表示に適用され得る。一実施形態では、グラフィカルクラウド内に表示される各要素は、コンテンツと同期され得、それにより、表示される要素を選択することは、選択された要素を含むコンテンツの再生又は表示を引き起こす。

一実施形態では、この方法（プロセス）のクラウドフィルタ部分は、自動音声認識（ＡＳＲ）信頼性スコア並びに／又は音声及びビデオベースのコンテンツのための他のＡＳＲメトリクスを含むコンテンツ変換からの結果に基づき、各クラウド要素に割り当てられる要素ランク因子を決定すること、及びグラフィカルクラウド内の各単語要素について既に決定されているクラウド要素の有意性ランクに要素ランク因子を適用することを含む。

本明細書に示す実施形態の態様及び利点を、添付図面に関連して、以下の詳細な説明を参照して説明する。図面の全体を通して、参照する要素間の対応関係を示すために参照番号を再利用する場合がある。図面は、本明細書に記載する実施形態の例を示すために提供され、本開示の範囲を限定することを意図されない。

グラフィカルクラウドシステムの流れ図の一例を示す。本開示の教示から導出されるグラフィカルクラウドの一例を示す。本開示の教示から導出される非英語グラフィカルクラウドの一例を示す。クラウド要素の一例を示す。グラフィカルクラウドのビデオ表示の一例を示す。グラフィカルクラウドのビデオ表示の代替例を示す。グラフィカルクラウドの音声表示の一例を示す。コンテンツの再生、レビュー又は取得時のグラフィカルクラウド表示の時間順序付けの一例を示す。

概して、本明細書に記載する実施形態は、適切に構成されたレンズを使用し、且つ多様な機能フィルタを適用することにより、コンテンツの対話型グラフィカル表現を作成するためのシステムを対象とし、冗長、無関係及び／又は誤ったコンテンツを除去又はマスキングすることにより、雑音が少なく、雑然としていないコンテンツのビューをもたらす。特定のコンテンツの関連性は、ユーザによってリアルタイムで決定され、そのユーザが有用性を効率的に導出することを可能にする。その有用性は、多様なレンズ及びフィルタの実施形態を利用することに基づき、コンテンツからの全体的な意味、より完全なレビューのためのそのコンテンツの関連部分の識別、コンテンツを移動する「ローリング要約」の視覚化又は他の有用な情報セットの導出を抽出することであってもよい。

一緒に機能して、本明細書で開示する結果をもたらす様々な要素についての以下の説明は、デジタル電子機器及びアナログ電子機器、プロセッサ上で実行されるソフトウェア並びにデスクトップコンピュータ、ラップトップ、スマートフォン、タブレット等の電子装置及び他の同様の装置内で一般に認められるユーザ／インタフェース表示機能の任意の組み合わせにおいてインスタンス化されるプログラムシーケンス及び／又は論理構造として実装されることが理解されるであろう。とりわけ、本明細書に記載の方法（プロセス）は、プログラムされたコンピュータの方法又はデジタル論理の方法であり得るモジュール又は要素として実装することができ、様々なアナログ及び／又はデジタルディスクリート回路部品（トランジスタ、抵抗、コンデンサ、インダクタ、ダイオード等）、プログラム可能論理、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路又は他の回路素子の何れかの組み合わせを使用して実装することができる。本明細書に記載する方法の１つ又は複数を実行するために、コンピュータプログラム又はコンピュータ実行可能命令を記憶するように構成されるメモリをディスクリート回路部品と共に実装することができる。概して、デジタル制御機能、データ取得、データ処理及び画像表示／解析は、有線、無線及び／又はローカルネットワークにわたって且つ／若しくは非ローカルネットワークにわたって接続され得る１つ又は複数のデジタル要素又はプロセッサ間で分散させることができる。

用語解説
・コンテンツ。コンテンツは、限定されないが、音声、ビデオ及びテキストベースのメディアを含む様々なマルチメディアソースを含み得る。コンテンツは、リアルタイムで使用するためにストリーミングソースによって入手可能であり得るか、又は既に使用可能であり得る。
・グラフィカルクラウド。グラフィカルクラウドは、定められ且つ選択されたクラウドフィルタに基づいて無関係の、優先度の低い、又はランクの低い要素を除去した見やすい方法で描かれた様々なクラウド要素（例えば、単語、句、アイコン、アバター、絵文字等）で構成される、コンテンツから導出される視覚化である。クラウドフィルタ及びクラウドレンズは、グラフィカルクラウド内で描かれるクラウド要素の種類、量及び密度を制御する。様々な実施形態において及び選択されるメディアの種類について、グラフィカルクラウドの変化は、時間又はシーケンスと共にユーザに表示されるコンテンツの変化を表し、その期間又はシーケンス長は、変化することができ、且つセグメント化されるか又は重複するかの何れかであり得る。
・クラウド解析。クラウド解析は、ソースコンテンツ又はソースコンテンツの変換に基づく他の導出コンテンツに適用される技法（例えば、ソース音声から自動音声認識によって抽出される単語に対して実行される解析）である。技法の例は、自然言語処理、計算言語学的解析、自動翻訳、デジタル信号処理及び他の多くのものを含む。これらの技法は、複合クラウド要素のための新たなクラウド要素、要素属性及び／又は要素アソシエーションを形成する要素、属性及び／又はアソシエーションを抽出する。
・クラウド要素。クラウド要素は、幾らかのレベルの変換又は解析によってソースコンテンツから導出され、幾つか例を挙げると、発話若しくは記述された単語若しくは句、表現された感情若しくは心情、話者若しくは行為者の意図、トーン若しくは気分、導出された意味、話者若しくは行為者の識別、アクティブジェスチャ、導出されたカラーパレット又はソースコンテンツの解析によって導出することができる他の物質的特性を表す単語、単語句、完全な文、アイコン、アバター、絵文字等のグラフィカル要素を含む。複合クラウド要素は、クラウド要素の集合であり、その集合内の従属クラウド要素をリンクする要素属性及び要素アソシエーションに基づいて構築される。
・クラウドフィルタ。クラウドフィルタは、特定の入力パラメータ及び／又はアルゴリズムで定められたヒューリスティックに基づき、消費するためにクラウド解析によってソースマテリアルから抽出される１つ又は複数のクラウド要素セットを選択するための制御をユーザに与える。クラウドフィルタの種類は、多数あり、幾つか例を挙げると、要素の頻度（指定されたクラウドレンズのビューの参照若しくはフレーム内の出現数又はコンテンツサンプル全体にわたる出現数）、単語の重み及び／又は複雑性（文字数、音節数等）、構文（文法ベース、品詞、キーワード又は用語抽出、文脈に基づく単語の意味、文の境界等）、感情（嬉しい、悲しい、怒っている等）及びダイナミックレンジ（ラウドネス又はレベルの変化）を含む。クラウドフィルタは、クラウドレンズによって定められる特定のビュー内で定められるクラウド要素に対する機能に限定されない。むしろ、クラウドフィルタの範囲は、特定のクラウドレンズのビューに対して「局所的」であり得るか、又は選択されたコンテンツから導出若しくは抽出されるクラウド要素の全てにわたって「大域的」であり得る。これは、全体的な（大域的な）コンテンツサンプル内の他の箇所で有意性を有する特定のクラウド要素をクラウドフィルタが適切に優先順位付けする（ランク付けする）ことを可能にする。
・クラウドレンズ。クラウドレンズは、コンテンツ内への制御されたビューを提供し、所与の視覚化に関するグラフィカルクラウドの表示密度及び倍率レベルに影響を与える。一部の実施形態では、グラフィカルクラウドを構築するために、固定された期間又はシーケンス長を表すコンテンツの倍率レベルをクラウドレンズが定める。クラウドレンズは、潜在的に表示可能なクラウド要素のその後の優先順位付け及びランク付けのために、検討中のある量のコンテンツを結合する。クラウドレンズは、表示に使用するメディアサンプルの期間又は量を制御する。テキストベースのコンテンツの場合、クラウドレンズは、クラウドフィルタの評価及びランク付けに使用されるテキストの量又はコンテンツのシーケンス長（例えば、単語、文、段落、章等の数）を制御する。
・要素属性。クラウド要素は、追加の属性を割り当てられる場合がある。例えば、音声サンプルの文字起こしは、単語要素の組をもたらし、単語によって異なる文脈において異なる意味及び追加の属性を有し得るため、その特定の文脈におけるその特定の単語について、それらの単語のそれぞれに適切な品詞（例えば、名詞、代名詞、固有名詞、形容詞、動詞、副詞等）を割り当てることができる。一連の単語又は期間にわたる音声の振幅変動を明らかにするために、音声コンテンツ又はビデオコンテンツに対してデジタル信号処理解析を実行し、それらのクラウド要素の属性を定めることができる。
・要素アソシエーション。クラウド要素は、他のクラウド要素とのアソシエーションを有し得る。例は、形容詞の属性を有する単語要素と、名詞の属性を有するその関連単語要素とを含む。別の例は、関連する単語、単語句又は文（例えば、質問）を参照し得る感情的な要素の属性（「好奇心」）を含む。
・視覚的雑音。視覚的雑音は、特定の任意のコンテンツソースについて比較的小さいパーセンテージの導出クラウド要素（例えば、単語、アイコン等）のみが所与のユーザの視覚的対話にとって有益であることを指す。例えば、１５０〜２３０語／分（ｗｐｍ）の通常の発声速度での１時間の音声コンテンツ又はビデオコンテンツは、そのメディアサンプルに関して９，０００語〜１４，０００語に相当し、そのサンプルからの重要な（ランクの高い）単語又はキーワードの数は、全体のごく一部に過ぎない。その同じコンテンツサンプルから追加で抽出されるクラウド要素（例えば、話者、話者の変更、ジェスチャ、感情等）により、潜在的に冗長、無関係又は誤った、従って有用でないグラフィカル要素の数が甚大になり得る。

グラフィカルクラウドの構築
システムの流れ図である図１に示すように、システム１００は、主要なサブシステムで構成される。ソースコンテンツ１０１がクラウド解析１０２に送られ、クラウド解析１０２で入力コンテンツに対して変換解析が行われ、完全なクラウド要素の組、それらの要素属性及び他のクラウド要素に対するそれらの要素アソシエーションをもたらす。更に、クラウド要素並びに任意の要素属性及び要素アソシエーションに基づいて複合クラウド要素が構築される。

メディアの論理的な流れ及び有益なコンテンツの抽出は、以下のプロセスをたどる：
・ソースコンテンツ１０１がクラウド解析モジュール１０２に与えられ、クラウド解析モジュール１０２は、必要に応じてコンテンツをテキスト（例えば、自動音声認識技術によって単語、句及び文）に変換することができ、コンテンツを目標言語（例えば、言語翻訳技術によって単語、句及び文）に変換することができるか、又はソースコンテンツから多様なメタデータ（例えば、品詞、話者の変更、ピッチの増加等）を抽出することができる。
・クラウド解析モジュールによってもたらされる単語及び他のメタデータは、クラウド要素、要素属性又は要素アソシエーションを定める。クラウド解析モジュールは、ソースコンテンツをその後の解析及び処理のための基本単位に抽出及び変換する前置フィルタと見なすことができる。
・クラウド解析モジュール１０２の出力がクラウドレンズ１０５に与えられ、クラウドレンズ１０５は、最終的なグラフィカルな視覚化のために検討中のクラウド要素のサブセットを決定する。クラウドレンズによって定められる時間窓又はセグメント内のクラウド要素のみがグラフィカルクラウド内で表示できる。更に、局所的なレンズビューの端により近いクラウド要素と比較してクラウドレンズの中心にあるクラウド要素により大きい重みを加えるために、クラウド要素に集中重みを適用することができる。各クラウド要素の集中重みは、クラウドフィルタによって決定される最終的な要素の重み又はランク付けに寄与する。
・クラウド解析に組み込まれ、手作業の又は人間によって生成される文字起こしを自動音声認識（ＡＳＲ）によって向上させて、それらの人間によって生成されるソリューションのための非常に正確なタイミングをもたらし、それにより、その後の変換及び解析のために任意の種類の文字起こしをメディアに対して正確に同期させて、対話型グラフィカルクラウドを構築することを保証することができる。
・関連する集中重み及び他のメタデータ（例えば、品詞の属性等）を有するクラウド要素がクラウドフィルタ１０４に与えられ、クラウドフィルタ１０４は、各クラウド要素のランク又は重みを評価し確立するための規則を適用する。クラウドフィルタは、複合クラウド要素をどのようなものが構成するかを要素属性及び要素アソシエーションに基づいて更に決定し、複合クラウド要素にランクも割り当てる。クラウドフィルタの出力は、複合クラウド要素を含むクラウド要素のランク付きの、従って順序付きの一覧であり、その全ては、グラフィカルクラウドの視覚化を構築するために要素表示１０３に与えられる。
・クラウドレンズ１０５は、クラウドフィルタ１０４による解析及びランク付けのためのクラウド要素のサブセットを指定するが、セグメント又は時間窓内のクラウド要素のランク付けを更に調整するために、クラウドフィルタも、入力ソースコンテンツからのクラウド要素の完全な組へのアクセスを維持する。全てのクラウド要素のこの大域的文脈は、クラウドフィルタが特定のランクを決定するとき、特定のクラウド要素の出現頻度を評価することを可能にする。例えば、特定の単語が所与のクラウドレンズセグメント内で１度のみ出現するが、メディアサンプルの全体にわたる出現頻度が高い場合、その特定の単語クラウド要素に適用される相対的な重みは、局所的文脈のみを検討する場合よりも重くなる。
・グラフィカルクラウド１０３は、クラウドレンズ１０５によって限定される複合クラウド要素を含むクラウド要素のサブセットで構成され、この集合内の最も高いランクを有する要素が視覚的に更に強調される。
・グラフィカルクラウド１０３は、視覚的コンポーネントの許容可能な密度、英語では左から右且つ上から下である読む方向を定める基礎をなす言語規則を定めるクラウドレンズ１０５のビューを考慮に入れる。例えば、クラウドレンズのビュー内で局所的に又は全コンテンツサンプルにわたって大域的にコンテンツに関連すると判定される単語は、（テキストでは）より鮮明且つ大きいフォント又はより大きいグラフィカル要素（例えば、アイコン、アバター、絵文字等）で表示することができる。
・コンテンツは、グラフィカルクラウド１０３の各要素が、詳細なレビューのために、音声及びビデオの場合には同期された再生のために特定のコンテンツ又はメディアの位置に結び付けられるように同期される。多様な時間順の及びセグメント化されたグラフィカルクラウド内で索引付けするために、ユーザは、音声波形、ビデオ再生プログレスバー又はテキストベースのコンテンツにアクセスすることができるため、同期は、双方向に機能する。ユーザは、グラフィカルクラウド要素にアクセスして、音声及びビデオコンテンツではメディアの再生を開始するか、又はテキストベースのコンテンツ内に適切に索引付けすることもできる。

クラウド解析の機能
以下は、変換プロセスの部分的な一覧であり、多様なコンテンツソースに解析技法を適用して、その要素属性及び要素アソシエーションを含む、人を引き付けるクラウド要素をもたらすことができる。
・自動音声認識（ＡＳＲ）
・言語翻訳
・自然言語処理（ＮＬＰ）
・自然言語理解
・計算言語学（ＣＬ）
・認知神経科学
・認知計算
・人工知能（ＡＩ）
・デジタル信号処理（ＤＳＰ）
・画像処理
・パターン認識
・光学式文字認識（ＯＣＲ）
・光学式単語認識

これらの解析技法の性能（例えば、精度）の制限は、クラウド要素の抽出、形成及び構成において重要な役割を果たす。例えば、自動音声認識（ＡＳＲ）システムは、文字起こしがソースコンテンツとどの程度正確に一致するかについて測定される。その単語誤り率によって測定されるＡＳＲの性能に有意に（著しく）影響を及ぼす条件は、話者のアクセント、クロストーク（複数の話者が一度に話すこと）、背景の雑音、記録される振幅レベル、アナログ音声をデジタル形式に変換するためのサンプリング周波数、特殊な又は慣習の語彙、専門用語、技術用語又は業界固有の用語等を含む。現代のＡＳＲシステムは、生成される出力情報の一部として信頼性スコア又は精度スコアをもたらし、それらの信頼性スコアは、結果として生じるクラウド要素の属性として残り、クラウドフィルタによってもたらされる有意性ランクに影響を及ぼす。

クラウドレンズ、窓、シーケンス、遠近法及び密度
クラウドレンズは、メディア内への特定のビューを提供し、全ソースコンテンツ内への特定の倍率レベルを定める。クラウドレンズを完全に広げることは、全コンテンツサンプルのためのグラフィカルクラウド（例えば、全９０分間のビデオに対する単一のグラフィカルクラウド）をユーザが見ることを可能にする。クラウドレンズによる拡大は、ある一部分若しくはセグメントのみ又は全コンテンツサンプルを表すグラフィカルクラウドをユーザが見ることを可能にする。これらのセグメントは、任意のサイズのものであり得る。更なるセグメントは、あるセグメントの終わりが次のセグメントの始まりであることを含意する連続であり得る。又は、セグメントは、アクティブ表示されるグラフィカルクラウド内で描かれるクラウド要素の増分的に変化する組に基づく、結果として生じるグラフィカルクラウドのほぼ連続的な変換を可能にする重複であり得る。

クラウドレンズによって定められる倍率設定を、クラウドフィルタによって定められる複雑性及び制御と組み合わせ、指定されたセグメント内のクラウド要素の「密度」が定められる。この制御レベルは、ユーザが任意の所与の時点においてどの程度のコンテンツが表示されるかを決定し、それにより個々の使用事例に適切な詳細レベル又は関連性レベルを与えることを可能にする。

クラウドフィルタ、注視、スキミング及び読み取り速度
グラフィカルクラウド及びクラウドフィルタ内で使用される要素ランキングアルゴリズムを構築するための重大な検討事項は、人間の目が、単一の注視で限られた数の単語を見ることができることであり、一部の研究は、殆どの人にとってこの注視プロセスの上限が典型的には３語であることを示しているが、この上限は、人の視野範囲及び語彙に基づいて異なる。従って、重要な単語句の長さを制限しておくこと、及び特定のクラウドフィルタの設計内でランクが十分高くなるとき、単語の対（要素の対）及び単語の三つ組（要素の三つ組）をグラフィカルクラウド内で表示できるようにする要素属性及びアソシエーションを保つか又は策定するための利点がある。クラウドレンズによって定められる一部のビューでは、クラウドフィルタは、隔離されたクラウド要素のみを表示する。しかし、クラウドレンズがビューを十分に広げる場合、クラウドフィルタによってランク付けされる複合クラウド要素を含めることで理解及び有用性に対するかなり良い影響がある。

グラフィッククラウドの目標は、関連する要素のクラスタを効率的に走査できることであり、その関連性は、そのユーザの特定の需要に依存するため、人間の認知及び注視の影響を理解することは、効果的なクラウドフィルタを設計することを促進する。要素アソシエーションを保ち、人が直ちに見ることができる境界に収まる正しい数の要素を表示することは、識別及び解釈の速度を上げる。本明細書で開示する技法を用いて、最適な視標追跡に適した視覚的間隔により、且つ単一の注視において複数の要素（単語又は他の要素の種類）を読み取る有用性により、視覚的雑音（即ち視覚的要素の散らかり）を著しく減らすことは、ユーザがコンテンツから有用性を抽出するための一層優れた効率をもたらし得る。

頻度、複雑性及び文法から導出される属性によるクラウドフィルタの実施形態
代表的なクラウドフィルタは、多様な解析から導出される様々なパラメータを追跡することを含む。クラウドフィルタの一例は、テキストベースのコンテンツ又は他のコンテンツソースから導出されるテキストでは、単語の複雑性及び頻度を明らかにすること、及び文法に基づく一次解析を含む。これらのプロセスのそれぞれから、グラフィカルクラウド内の各要素に要素ランクが与えられる。コンテンツから抽出されるより関連性のある要素を強調表示するユーザ表示がそのランクから構築される。

特定のグラフィカルクラウドセグメント内において又は全メディアサンプルにわたって単語の複雑性並びに各単語及び単語句の出現頻度を明らかにすることにより、サンプル単語、単語句、要素ランキング解析を構築することができる。単語の複雑性は、特定の単語を構成する文字数又は音節数のカウントのような単純なものであり得る。要素のランクは、所与の要素の複雑性又はその要素の出現頻度に正比例する。いかなるフィルタメトリクスも、そのセグメントのみに対して「局所的」と見なすことができるか、又は全メディアサンプルにわたって解析されるコンテンツを参照する場合には「大域的」と見なすことができる。

文法に基づく一次解析をテキストコンテンツに対して実行して品詞を明らかにすることができる。クラウドフィルタによって使用される適切なクラウド要素を構築するために使用可能なアルゴリズムの一例を記載する：
・英語向けを含めてテキストを解析して、品詞：名詞、動詞、冠詞、形容詞、前置詞、代名詞、副詞、接続詞及び感嘆詞を明らかにする。広範囲にわたる言語作業は、更に多くの別個の品詞をもたらす。この解析は、他の言語でも異なり、そのため、言語に固有の品詞決定が一種のクラウドフィルタに関連する。
・品詞に基づいて各単語に要素ランク因子を加える。例えば、英語では名詞が各文の中心であることが多く、そのため、他の品詞の要素ランクと比較した場合、要素ランクの増分的な増加が適用される。この品詞のランクは、クラウド解析の出力に基づいて定められる特定の単語の属性になる。
・品詞のランクは、発話の部分ごとに異なり、優先順位付けされる。英語では、以下は、高から低へのある優先順位付けした順位である：固有名詞、名詞、動詞、形容詞、副詞、その他。これらの属性は、クラウド解析中に定められ、クラウドフィルタによる要素のランク付けに利用される。
・同様に、品詞は、オブジェクトを増強する属性を提供することができ、他の品詞は、行われている行為、別の属性又は更に他の品詞を増強する属性を提供することができる。英語では、これらは、副詞であり、副詞は、形容詞、動詞、他の副詞又は他の語群を修飾する。これらの「副詞」の品詞との間のアソシエーションを決定することは、複合クラウド要素及びその視覚化を構築する際に有用であり得る。
・グラフィカルクラウド内のクラウド要素ごとに既に決定されている頻度及び複雑性のランクに属性ランク因子を適用する。
・クラウドレンズに基づき、コンテンツ内へのアクティブウィンドウを決定し、表示されるクラウド要素の密度を決定する。クラウドフィルタに基づき、要素のランキング及び導出されるコンポーネントのクラウド要素を決定し、視覚的グラフィカルクラウドを構築する。
・ランクの高いクラウド要素に関する主要な要素アソシエーションに基づき、アソシエートされた要素の要素ランキングが所与の表示について十分高くない場合にも、そのアソシエートされた要素を表示することができる。
・表示されるクラウド要素の高度な視覚的理解を支援するために、表示される単語、単語の対、単語の三つ組及び他の任意の単語句という要素の種類を含む、それらの要素のグラフィカルな加重を実施する。例えば、参照先の名詞及び動詞用のより鮮明な色及びより大きいフォントのスキームと比較し、形容詞及び副詞には落ち着いた色及びより小さいフォントを使用する。最も顕著なクラウド要素に基づく要素ランキングは、最も大きく、最も鮮明で、最も目立つグラフィカルスキームで表示する。
・優先順位が高い単語要素のための更なる視覚的強化は、他の信号処理メトリクスを反映させるために増加するフォントサイズ又は減少するフォントサイズを特定の単語内で有することである。例えば、増加するピッチ又は減少するピッチは、特定の単語又は句中のフォントサイズの変化を決定することができる。

以下の文は、特定のフィルタパラメータに基づいて適切に且つ場合により異なるように表示されるクラウド要素を構築するために、基幹的な文法上の品詞を理解する有用性を例証する。クラウド要素は、クラウドフィルタの性質及び所与の視覚化の「要素の密度」に関するシステムへの入力に基づいて表示される。以下の英文は、複合クラウド要素を構築し、クラウドフィルタによってそのクラウド要素を消費するのに有用なコンテンツを示す。
ＪｏｈｎＷｉｌｌｉａｍｓは、自分の非常に多い仕事量により作業を完了することができなかった。

上記の参照文から、名詞は「Ｊｏｈｎ」、「Ｗｉｌｌｉａｍｓ」、「作業」及び「仕事量」である。そのため、そのそれぞれがクラウドフィルタの実施形態の例について高い要素ランクを有する。「完了する」という動詞は、重要度又はランクの順番が次である。「非常に」という副詞及び「多い」という形容詞のランクは、等しく、名詞及び動詞よりも低い。但し、「多い」に対する「非常に」及び「仕事量」に対する「多い」というアソシエーションをそれぞれ有する。これらのアソシエーションは、「非常に多い仕事量」という句に関連する３つの従属クラウド要素で構成される複合クラウド要素を形成する。

そのため、クラウドレンズの状態を所与とし、「仕事量」という単一の重要な名詞と比較してより有意味な表示をユーザに対してもたらすために、あるフィルタの実施形態では、「非常に多い仕事量」という複合クラウド要素を一緒に表示することができる。更に、注視は、コンテンツの所与の瞬間ビューに関して人間が多くの場合に複数の単語を見ることができるという事実によって定義される。そのため、ユーザは、「非常に多い仕事量」を単一のビュー（注視）によって潜在的に解釈し、それにより表示の関連性を高めることができる。

対応する要素属性及び要素アソシエーションと共に更に多くのクラウド要素を作成するためにコンテンツに一層多くの解析関数を適用するとき、このアルゴリズムは、多くの方法で拡張することができる。新たな要素の種類（例えば、ジェスチャ、感情、トーン、意図、振幅等）を構築するときに更なる拡張を適用し、グラフィカルクラウドの視覚化のリッチ度を高めることができる。

グラフィカルクラウドの構成
グラフィカルクラウド１０３は、ユーザが選択するコンテンツの所与の期間又はシーケンスにわたって構築される。図２は、サンプルコンテンツから導出されたグラフィカルクラウド表現の変換及びグラフィカル表示１０３を示す。結果として生じるこの例のグラフィカルクラウドは、クラウドフィルタによって定められる、単語、句、アイコン、選択ペルソナ又はアバター、感情状態（絵文字）であるクラウド要素並びに個々のクラウド要素を複合クラウド要素（例えば、単語の対、単語の三つ組等）に結合する要素属性及び要素アソシエーション並びにクラウド要素を適切にランク付けするためのクラウド属性（例えば、固有名詞）を示す。

図２は、以下のテキストの例から構築されたグラフィカルクラウドを示す。
“ＪｏｈｎＷｉｌｌｉａｍｓｃｏｕｌｄｎｏｔｃｏｍｐｌｅｔｅｔｈｅｔａｓｋｂｅｃａｕｓｅｏｆｈｉｓｔｒｅｍｅｎｄｏｕｓｌｙｈｅａｖｙｗｏｒｋｌｏａｄ．
Ｔｈｉｓｉｓａｎｏｔｈｅｒｅｘａｍｐｌｅｏｆｔｈｅｕｎｉｑｕｅｃｈａｌｌｅｎｇｅｓｆｏｒｅｎｔｒｙ−ｌｅｖｅｌｅｍｐｌｏｙｅｅｓ，ｌｅａｄｉｎｇｔｏｌｏｗｊｏｂｓａｔｉｓｆａｃｔｉｏｎ．
Ｈｉｓｓｕｐｅｒｖｉｓｏｒ，ＬａｕｒｅｎＢａｎｋｓ，ｐｒｏｖｉｄｅｓｇｕｉｄａｎｃｅ，ｙｅｔｈｅｒｗｏｒｋｌｏａｄｉｓｅｘｔｒｅｍｅｔｏｏ．
Ｍａｎａｇｅｍｅｎｔｎｅｅｄｓｔｏｒｅｖｉｅｗｗｏｒｋａｓｓｉｇｎｍｅｎｔｓｇｉｖｅｎｏｖｅｒａｌｌｓｔｒｅｓｓｌｅｖｅｌｓ！”

この時間又はシーケンスをコンテンツ内への倍率レベル又はズームレベルと見なされたい。例えば、この倍率レベル又はズームレベルは、６０分間の音声サンプル又はビデオサンプルのうちの５分間に相当し得る。この「ズームレベル」から独立しているのは、全てクラウドレンズ及びクラウドフィルタによって構成及び制御される特定のグラフィカルクラウドの単語の密度である。即ち、所与のメディアセグメント（即ち６０分間のメディアファイルのうちの５分間）について、その所与のグラフィカルクラウドビューの要素の密度を定める、そのセグメント内で表示される要素（例えば、単語）の数は、異なり得る。

グラフィカルクラウドの翻訳
言語翻訳ソリューションをソースコンテンツに、ソース音声コンテンツ若しくはソースビデオコンテンツに適用される自動音声認識システムの出力又は入力音声コンテンツ若しくは入力ビデオコンテンツの入力をソースとする文字起こしに適用することができる。次いで、複合クラウド要素内の適切な語順を決定するために自然言語処理を使用することを含め、言語翻訳ソリューションの出力を他のクラウド解析モジュールに適用する。このプロセスの出力を図３に示し、図３は、適切なスペイン語の翻訳及び語順と共に言語翻訳の応用を強調するグラフィカルクラウド表示１０３を示す。

図３は、以下の翻訳されたテキストの例から構築されるグラフィカルクラウドを示す。
“ＪｏｈｎＷｉｌｌｉａｍｓｎｏｐｕｄｏｃｏｍｐｌｅｔａｒｌａｔａｒｅａｄｅｂｉｄｏａｓｕｃａｒｇａｄｅｔｒａｂａｊｏｔｒｅｍｅｎｄａｍｅｎｔｅｐｅｓａｄａ．
Ｅｓｔｅｅｓｏｔｒｏｅｊｅｍｐｌｏｄｅｌｏｓｄｅｓａｆｉｏｓｕｎｉｃｏｓｐａｒａｌｏｓｅｍｐｌｅａｄｏｓｄｅｎｉｖｅｌｉｎｉｃｉａｌ，ｑｕｅｃｏｎｄｕｃｅａｕｎａｂａｊａｓａｔｉｓｆａｃｃｉｏｎｅｎｅｌｔｒａｂａｊｏ．
Ｓｕｓｕｐｅｒｖｉｓｏｒａ，ＬａｕｒｅｎＢａｎｋｓ，ｐｒｏｐｏｒｃｉｏｎａｏｒｉｅｎｔａｃｉｏｎ，ｐｅｒｏｓｕｃａｒｇａｄｅｔｒａｂａｊｏｅｓｅｘｔｒｅｍａｔａｍｂｉｅｎｉＬａｇｅｒｅｎｃｉａｎｅｃｅｓｉｔａｒｅｖｉｓａｒｌａｓａｓｉｇｎａｃｉｏｎｅｓｄｅｔｒａｂａｊｏｄａｄｏｓｌｏｓｎｉｖｅｌｅｓｇｅｎｅｒａｌｅｓｄｅｅｓｔｒｅｓ！”

入力ソースは、単語、句又は文ごとに翻訳できるが、翻訳のための入力コンテンツを限定する場合に一部の文脈が失われることがある。図示のように、より包括的な手法はコンテンツをまとめて翻訳し、入力テキストセグメントの完全な文字起こしをもたらすことである。幾つか例を挙げると、発話速度、発話レベル、ダイナミックレンジ、話者の識別を抽出する多くのデジタル信号処理技法を含む他のクラウド解析技法は、言語に依存しない。

翻訳されたテキスト及び入力ソースコンテンツに適用されるプロセスは、クラウド要素の完全な組をそれらの要素属性及び要素アソシエーションと共にもたらす。次いで、翻訳されたグラフィカルクラウドをもたらすために、結果として生じる複合クラウド要素及び個々のクラウド要素の集合がクラウドレンズ及びクラウドフィルタに送られる。

ユーザによって供給されるキーワード及びトリガ
代替的実施形態は、処理される応用又はコンテンツに関連するキーワードの一覧を予め設定するか又は提供する能力を含み得る。例えば、講師がその講義のキーワード又は教育上の用語のキーワードを提供することができ、それらのキーワードは、関連するグラフィカルクラウドを変換及び作成する際に使用される各ビデオを処理するために提供され得る。更なる例は、様々な異なる応用（例えば、セキュリティモニタの応用）のためにコンテンツをモニタするリアルタイムストリーミングの応用を含み得る。このストリーミングの例における固有の応用ごとに、その応用の「トリガ」ワードが異なり得、クラウドフィルタの要素ランキング並びにその後の及び結果として生じるリアルタイムグラフィカルクラウドを修正するためにシステムに提供することができる。加えて、コンテンツの消費者は、自らのアカウントプロファイルの一部として関連するキーワード又は重要なキーワードの一覧を保ち、それによりグラフィカルクラウドを生成するためのキーワードコンテンツの自動調節を可能にすることができる。

システムに提供されるキーワードは、構築されるグラフィカルクラウド内で定義により最も高くランク付けされるため、結果として生じるグラフィカルクラウドの組み立てを明らかにモーフィングすることができる。それらのキーワードに対する特別な視覚的処理により、メディア片を通してグラフィカルクラウドを走査することを更に向上させ、メディアコンテンツを処理する際の効率を更に高めることができる。テキストを走査又はスキミングすることは、言葉によるコンテンツを読み取るか又は発話することよりも４倍〜５倍速く、そのため、グラフィカルクラウドの走査の特徴は、走査されるテキストコンテンツが減ることを所与とし、その乗数を増加させる。従って、重要なメディアセグメント若しくは所望のメディアセグメントを識別することに関して、又はコンテンツの全体的な意味、本質若しくは要旨を視覚的に走査することに関して、全体的な効率乗数は、１０倍以上に達し得る。

システムに組み込まれる編集距離は、ユーザによって定められるキーワードの使用を向上させることができる。自動的な手段（例えば、ＡＳＲ）によってもたらされる文字起こしは、低い単語精度を有する場合があり、所定の閾値（例えば、所要の文字列演算数に関する閾値）を有する編集距離を利用して、誤ったＡＳＲ出力を、可能性が高いキーワードに自動的に置換し、結果として生じるグラフィカルクラウド内にそのキーワードを表示すること（又は他の動作）を可能にすることができる。

単語に基づかないトリガ
クラウド解析と共に開示する技法には、感情、ジェスチャ、音声マーカ等を含む、人を引き付ける及び関心を引くクラウド要素を生成する潜在性がある。ユーザによって供給されるキーワードの概念の拡張は、自らの視覚化の需要及びエクスペリエンス（経験）に関連するソースコンテンツ内の要素をユーザが指示することを可能にする概念である。例えば、場合により参加者間の興味をそそる対話を示す、音声サンプル内の音声レベルが大きく変わった領域を求めてグラフィカルクラウドを走査することである。

グラフィカルクラウドのコンポーネント図
図４は、クラウド要素及び関連するクラウド要素の集合であるクラウド要素（４００ａ〜４００ｊ）で構成され、複合クラウド要素（４００ｂ及び４００ｆ）を含む代表的なグラフィカルクラウドを示す。各クラウド要素は、ソースメディアコンテンツ（例えば、音声、ビデオ、テキスト等）に対して行われる多様な解析に基づき、１つ〜多数の要素属性及び１つ〜多数の要素アソシエーションを有することができる。図示のように、要素属性及び要素アソシエーションは、複合クラウド要素の形成を支援する。

複合クラウド要素内のクラウド要素の数は、コンテンツの所与の期間又はシーケンスについて所与のグラフィカルクラウド内に表示されるクラウド要素の密度を定めるクラウドフィルタ及びクラウドレンズのための制御パラメータに加え、要素アソシエーションの重要度によって決まる。そのため、複合クラウド要素は、所与のグラフィカルクラウド内で全く描かれない場合があるか、又は主要な独立したクラウド要素のみを表示することができるか、又はクラウド要素の全てを表示することができる。

表示例 − ビデオビュー１
図５は、ビデオ表示の実施形態に関する主要コンポーネントのそれぞれを有する視覚化（グラフィカルクラウド１０３）の一例を示す。ビデオペイン５００は、ビデオコンテンツ（例えば、ＹｏｕＴｕｂｅ又はＶｉｍｅｏｖｉｄｅｏｓ）を表示するためにウェブブラウザ内で使用される種類のものであるビデオプレーヤ５０１を含む。このビデオペイン５００内では、時間が左から右に進む。この実施形態では、ビデオが再生されるとき、ビデオコンテンツ内で表示されている内容に関連し且つ同期し続けるようにグラフィカルクラウド１０３の視覚化がスクロールする。

左側のペインは、ビデオのタイムライン上にある選択されたビューについて構築されたグラフィカルクラウド１０３を表示し、右側のビデオペイン５００内で示されるビデオコンテンツにグラフィカルクラウド要素が同期される。グラフィカルクラウドのビューによって表される対応する時間窓も破線の長方形５０２によってビデオペイン内に示す。コンテンツビューの倍率レベルに関連してユーザが設定を制御した状態で、ビデオペインの破線領域のサイズは、クラウドレンズ１０５によって定められる。

他の実施形態は、グラフィカルクラウドを走査すること、ビデオを見ること又は両方によってユーザが既に識別されている位置に（タグを用いて）注釈を付けるか又は印付けすることを可能にするために、音声及びビデオの再生内にタグ及びマーカを含めるように拡張することができる。

表示例 − ビデオビュー２
図６は、モバイルビデオのビューに適した種類のグラフィカルクラウド１０３の一例を示す。ディスプレイの一番上にビデオプレーヤ５０１が示されており、その下に位置マーカ及び注釈タブのセクションが示されている。ビューの下部は、グラフィカルクラウドであり、破線の長方形５０２内に示す構築されたグラフィカルクラウドの対応する時間を表示する。

音声表示（ビュー）
図７は、グラフィカルクラウド表示１０３の実装形態の一例を示し、グラフィカルクラウドが１つ又は複数の音声波形７００の上に表示されている。モバイルビデオのビュー及びウェブビデオのビューと同様に、所与のグラフィカルクラウドを表示する期間を示すために破線の長方形表示５０２を波形上に示す。

期間及び単語の密度
グラフィカルクラウドは、ユーザが自身のエクスペリエンスをどのように構成することに決めたかに基づき、コンテンツの何らかの期間（窓）又は選択シーケンスにわたって生成される。ユーザがメディアコンテンツをスクロールするとき、個々の特定のグラフィカルクラウドを構築する複数の方法がある。図８は、シーケンシャル及び重複という２つのかかる時間セグメントの定義を示す。所与のセグメント又は窓の持続時間は、ユーザが（クラウドレンズによって）選択した倍率又は「ズーム」レベルによって定められる。例えば、ユーザは、セグメント化されたグラフィカルクラウドごとに５分間又は８分間の音声を見ることにすることができる。その特定の５分間又は８分間のセグメントについて構築されるグラフィカルクラウドは、要素ランキングアルゴリズムに基づくその期間の文字起こしを表す。

新たに構築されるグラフィカルクラウドは、まとめて構築及び表示することができる（シーケンシャルセグメント）か、又は個々の特定のグラフィカルクラウド内で生じている変化に基づいて増分的に変化することができる（重複セグメント）。今日の標準的な音声及びビデオプレーヤでよく見られるように、ユーザがグラフィカルクラウドに関連する時間をスクロールすることによって又はメディアの索引付けをスクロールすることによってメディアを移動するとき、グラフィカルに関心を引く及び人を引き付ける表示を使用して、それらの変化をアニメーション化することができる。

実施形態にもよるが、本明細書に記載した方法（プロセス）の何れかの特定の行為、イベント又は機能は、異なる順序で実行することができ、全体で追加するか、マージするか、又は省くことができる（例えば、プロセスを実践するのに記載した全ての行為又はイベントが必要とされるわけではない）。更に、特定の実施形態では、例えばマルチスレッド処理、割り込み処理又は複数のプロセッサ若しくはプロセッサコアにより、又は他の並列アーキテクチャ上で行為又はイベントを順序的ではなく同時に実行することができる。

本明細書で開示した実施形態に関して説明した様々な例示的な論理ブロック、モジュール及びプロセスステップは、電子ハードウェア、コンピュータソフトウェア又は両方の組み合わせとして実装することができる。ハードウェアとソフトウェアとのこの交換可能性を明確に示すために、上記では、様々な例示的なコンポーネント、ブロック、モジュール及びステップを概してそれらの機能に関して説明してきた。かかる機能がハードウェアとして実装されるか又はソフトウェアとして実装されるかは、全体的なシステムに課される特定の応用制約及び設計制約によって決まる。記載した機能は、特定の応用ごとに異なる方法で実装することができるが、かかる実装の決定は、本開示の範囲からの逸脱を生じさせるものと解釈すべきではない。

本明細書で開示した実施形態に関して説明した様々な例示的な論理ブロック及びモジュールは、本明細書に記載した機能を実行するように設計される、特定の命令を用いて構成されるプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、書換可能ゲートアレイ（ＦＰＧＡ）又は他のプログラム可能論理装置、ディスクリートゲート若しくはトランジスタ論理、ディスクリートハードウェアコンポーネント或いはその任意の組み合わせ等のマシンによって実装又は実行することができる。プロセッサは、マイクロプロセッサであり得るが、代替形態ではコントローラ、マイクロコントローラ又は状態機械、それらの組み合わせ等であり得る。プロセッサは、計算装置の組み合わせ、例えばＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ又は複数のマイクロプロセッサ又はそのような他の任意の構成として実装することもできる。

本明細書で開示した実施形態に関して説明した方法又はプロセスの要素は、ハードウェア内、プロセッサによって実行されるソフトウェアモジュール内又はその２つの組み合わせ内において直接具体化することができる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ又は当技術分野で知られている他の任意の形態のコンピュータ可読記憶媒体内にあり得る。例示的な記憶媒体は、プロセッサに結合することができ、そのため、プロセッサは、記憶媒体との間で情報を読み書きすることができる。代替形態では、記憶媒体がプロセッサと一体型であり得る。プロセッサ及び記憶媒体は、ＡＳＩＣ内にあり得る。ソフトウェアモジュールは、コンピュータ実行可能命令をハードウェアプロセッサに実行させるコンピュータ実行可能命令を含み得る。

本明細書で使用するとりわけ「できる」、「であり得る」、「とすることができる」、「例えば」等の条件付き言語は、別段の定めがない限り又は使用された文脈の範囲内で理解される限り、概して特定の実施形態が特定の特徴、要素及び／又は状態を含むが、他の実施形態がそれらを含まないことを伝えることを意図する。従って、かかる条件付き言語は、概して、特徴、要素及び／若しくは状態が１つ若しくは複数の実施形態に決して必須ではないこと、又はこれらの特徴、要素及び／若しくは状態が任意の特定の実施形態に含まれるかどうか若しくは任意の特定の実施形態において実行されるべきかどうかを作成者の入力若しくはプロンプトの有無にかかわらず決定するための論理を１つ若しくは複数の実施形態が必ず含むことを含意することを意図しない。「含む」、「包含する」、「有する」及び「伴う」等の用語は、同義であり、制約のない方法で包含的に使用され、追加の要素、特徴、行為、操作等を除外するものではない。更に、「又は」という用語は、（その排他的な意味ではなく）その包含的な意味で使用され、そのため、例えば要素の一覧を接続するために使用する場合、「又は」という用語は、その一覧内の要素の１つ、一部又は全てを意味する。

「Ｘ、Ｙ又はＺの少なくとも１つ」という句等の離接語は、別段の定めがない限り、アイテム、条件等がＸ、Ｙ若しくはＺであり得ること、又はさもなければその任意の組み合わせ（例えば、Ｘ、Ｙ及び／若しくはＺ）であり得ることを示すために概して使用される文脈で理解される。従って、かかる離接語は、Ｘの少なくとも１つ、Ｙの少なくとも１つ又はＺの少なくとも１つがそれぞれ存在することを特定の実施形態が要求することを概して意図せず、含意するものではない。

「約」又は「およそ」等の用語は、同義であり、この用語によって修飾される値が、その値に関連する理解された範囲を有することを示すために使用され、範囲は、±２０％、±１５％、±１０％、±５％又は±１％であり得る。「ほぼ」という用語は、結果（例えば、測定値）が目標値に近いことを示すために使用され、近いとは、例えば、結果が値の８０％の範囲内にあること、値の９０％の範囲内にあること、値の９５％の範囲内にあること、又は値の９９％の範囲内にあることを意味し得る。

別段の定めがない限り、「１つの（ａ）」又は「１つの（ａｎ）」等の冠詞は、概して、記載した１つ又は複数のアイテムを含むように解釈すべきである。従って、「〜するように構成される装置」等の語句は、列挙される１つ又は複数の装置を含むことを意図する。列挙されるそのような１つ又は複数の装置は、述べた記述を実行するように集合的に構成することもできる。例えば、「記述Ａ、Ｂ及びＣを実行するように構成されるプロセッサ」は、記述Ｂ及びＣを実行するように構成される第２のプロセッサと共に機能する、記述Ａを実行するように構成される第１のプロセッサを含み得る。

上記の詳細な説明は、例示的実施形態に適用される新規の特徴を示し、説明し、指摘したが、本開示の趣旨から逸脱することなく、説明した形式及び詳細、プロセスにおいて様々な省略形態、置換形態及び変更形態がなされ得ることが理解されるであろう。理解されるように、一部の特徴は、他の特徴と別に使用又は実践することができるため、本明細書に記載した特定の実施形態は、本明細書に記載した特徴及び利点の全てを提供しない形式の範囲内で実施することができる。特許請求の範囲の均等物の意味及び範囲に含まれる全ての変更形態が特許請求の範囲に含まれるものとする。

Claims

コンテンツソースから関連情報を抽出及び表示するための方法であって、
リアルタイムストリーム又は事前記録されたストアの少なくとも１つからコンテンツを取得すること、
セグメントの持続時間又は長さの少なくとも１つを定めるクラウドレンズを指定すること、ここで前記セグメントは、時間順又はシーケンス順のクラウド要素の全ての少なくとも１つ又はその総数の少なくとも１つのサブセットを含み、
少なくとも１つのクラウドフィルタを適用して、所与のセグメントに関連する各クラウド要素の有意性のレベルをランク付けすること、
選択された所定のクラウド要素密度に基づいて、所与のセグメントのグラフィカルクラウドに使用されるクラウド要素の数を定めること、
フィルタリングされたクラウド要素で構成される前記コンテンツから導出される視覚化を含む少なくとも１つのグラフィカルクラウドを構築すること、及び
セグメントを通して前記クラウドレンズをスクロールして、有意なクラウド要素の前記グラフィカルクラウドを表示すること
を含む方法。
クラウド要素は、変換又は解析の少なくとも１つを通してソースコンテンツから導出され、且つ発話若しくは記述の少なくとも１つの単語若しくは句、表現された感情、話者の意図、話者のトーン、話者の語尾変化、話者の気分、話者の変更、話者の識別、オブジェクトの識別、導出された意味、アクティブジェスチャ、導出されたカラーパレットを表す単語、単語句、完全な文、アイコン、アバター、絵文字を含むグラフィカル要素又は前記ソースコンテンツ若しくは変換コンテンツの変換及び解析を通して導出され得る他の物質的特性の少なくとも１つを含む、請求項１に記載の方法。
スクロールは、セグメントを通して実行され、セグメントは、連続するか又は重複するかの何れかであるクラウド要素の群によって定められる、請求項１に記載の方法。
クラウドフィルタは、前記指定されたクラウドレンズセグメント内の出現数、コンテンツサンプル全体にわたる前記出現数を含むクラウド要素の頻度、単語の重み、文字数、音節数等を含む複雑性、文法ベース、品詞、キーワード、用語抽出、文脈に基づく単語の意味、文の境界を含む構文、感情又はラウドネス若しくはレベルの変化を含む音声若しくはビデオの振幅の変化の少なくとも１つを含む、請求項１に記載の方法。
前記コンテンツは、音声、ビデオ又はテキストの少なくとも１つを含む、請求項１に記載の方法。
前記コンテンツは、テキスト、音声及びビデオの少なくとも１つであり、及び前記音声／ビデオは、文字起こし、自動文字起こし又は両方の組み合わせの少なくとも１つを使用してテキストに変換される、請求項５に記載の方法。
変換及び解析は、クラウド要素の要素属性又は要素アソシエーションの少なくとも１つを決定し、前記要素属性又は要素アソシエーションは、品詞タグランクを含むクラウド要素の前記クラウドフィルタのランク付けを支援するか、又は存在する場合には複数の従属クラウド要素を単一の複合クラウド要素に結合するための基礎を形成することができる、請求項１に記載の方法。
テキストクラウド要素は、英語について、名詞、固有名詞、形容詞、動詞、副詞、代名詞、前置詞、接続詞、感嘆詞又は冠詞を含む品詞タグを含む要素属性の少なくとも１つを含む、請求項７に記載の方法。
テキストクラウド要素は、名詞、形容詞又は副詞を含む品詞属性の少なくとも１つに基づく要素アソシエーション及び代名詞、名詞又は形容詞を含む対応する属性を有するその関連する単語クラウド要素の少なくとも１つを含む、請求項７に記載の方法。
文法に基づくコンポーネントを抽出するための構文解析が、名詞、動詞、形容詞等を含む少なくとも１つの品詞を含む変換出力テキスト、文コンポーネントの構文解析及び文の分割に適用され、構文解析は、品詞に基づく前記アソシエーションを含む間接参照を追跡することを含み、それにより要素属性及び要素アソシエーションを定める、請求項７に記載の方法。
固有名称の認識、対応するテキストを決定するための光学式文字認識（ＯＣＲ）の適用又は関係抽出を含む単語間のアソシエーションの少なくとも１つを含む、個々の単語の意味を抽出するための意味解析が適用され、それにより要素属性及び要素アソシエーションを定める、請求項７に記載の方法。
デジタル信号処理が、（音声及びビデオについて）発話レベル及び発話レベル範囲を含む信号振幅、ダイナミックレンジ、視覚的ジェスチャ（ビデオ）、話者の識別（音声及びビデオ）、話者の変更（音声及びビデオ）、話者のトーン、話者の語尾変化、人物の識別（音声及びビデオ）、カラースキーム（ビデオ）、ピッチ変動（音声及びビデオ）及び発話速度（音声及びビデオ）の少なくとも１つを含むメトリクスをもたらすために適用される、請求項６に記載の方法。
感情解析が、感情状態を推定するために適用される、請求項６に記載の方法。
前記クラウドフィルタは、
コンテンツ変換及び自然言語処理解析からの結果、最高から最低まで優先順位付けされた品詞要素属性：固有名詞、名詞、動詞、形容詞、副詞等に基づき、各クラウド要素に割り当てられる要素ランク因子を決定すること、
前記グラフィカルクラウド内の各単語要素について既に決定されている前記クラウド要素の有意性ランクに前記要素ランク因子を適用すること
を含む、請求項７に記載の方法。
単語、単語の対、単語の三つ組及び他の単語句を含むクラウド要素のグラフィカル加重を実施することを更に含み、ランクのより低い要素には落ち着いた色及びより小さいフォントが使用され、ランクのより高い要素にはより鮮明な色及びより大きいフォントのスキームが使用され、最も顕著なクラウド要素に基づく要素ランキングは、最も大きく、最も鮮明で、最も目立つグラフィカルスキームで表示される、請求項７に記載の方法。
前記クラウドレンズが前記コンテンツを通してスクロールされるとき、前記表示されるセグメントは、１つのセグメントの終わりが次のセグメントの始まりである連続又はアクティブグラフィカルクラウド内で描かれるクラウド要素の増分的に変化する組に基づく、前記結果として生じるグラフィカルクラウドのほぼ連続的な変換を提供する重複の少なくとも１つである、請求項１に記載の方法。
前記クラウドレンズによって定められるセグメント長を前記クラウドフィルタのランク付け基準と組み合わせて、表示されるセグメント内のクラウド要素の前記密度を定めることを更に含む、請求項１に記載の方法。
前記クラウドフィルタは、所定のキーワードに最も高いランキングを割り当てることを含む、請求項７に記載の方法。
所定の視覚的処理が、キーワードの表示に適用される、請求項１８に記載の方法。
前記グラフィカルクラウド内に表示される各要素は、前記コンテンツと同期され、それにより、表示される要素を選択することは、前記選択された要素を含む前記コンテンツの再生又は表示を引き起こす、請求項１に記載の方法。
前記方法の前記クラウドフィルタ部分は、
自動音声認識（ＡＳＲ）信頼性スコア並びに／又は音声及びビデオベースのコンテンツのための他のＡＳＲメトリクスを含むコンテンツ変換からの結果に基づき、各クラウド要素に割り当てられる要素ランク因子を決定すること、
前記グラフィカルクラウド内の各単語要素について既に決定されている前記クラウド要素の有意性ランクに前記要素ランク因子を適用すること
を含む、請求項７に記載の方法。