JP7506092B2

JP7506092B2 - 対象言語のコンテンツを二つの形態で同時表現させ、対象言語の聴解力を向上させるためのシステムと方法

Info

Publication number: JP7506092B2
Application number: JP2021560614A
Authority: JP
Inventors: ダニエルポールレイノー，
Original assignee: ジャイブワールド，エスピーシー
Priority date: 2019-04-09
Filing date: 2020-04-09
Publication date: 2024-06-25
Anticipated expiration: 2040-04-09
Also published as: US20210183260A1; WO2020210434A1; JP2022533310A; US10984667B2; US20230048738A1; US20200327817A1; US11551568B2; EP3953839A1; EP3953839A4

Description

関連する特許出願
この出願書は３５、Ｕ．Ｓ．Ｃ．§１１９に基づき、２０１９年４月９日にダニエル・ポールレイノー（ＤａｎｉｅｌＰａｕｌＲａｙｎａｕｄ）氏によって、提出されたアメリカ合衆国仮特許出願書６２／８３１，３８０号“ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＦＯＲＭＡＴＴＩＮＧＯＲＰＲＥＳＥＮＴＡＴＩＯＮＯＦＣＯＮＴＥＮＴＩＮＡＴＡＲＧＥＴＬＡＮＧＵＡＧＥＴＯＩＭＰＲＯＶＥＬＩＳＴＥＮＩＮＧＦＬＵＥＮＣＹＩＮＴＨＥＴＡＲＧＥＴＬＡＮＧＵＡＧＥ”（対象言語のコンテンツを編集又は表現させ、対象言語の聴解力を向上させるためのシステムと方法）に対して、優先権の利益を主張すると共に、前記仮特許出願書の全文を参考により、この出願書に完全に取り組むこととする。

技術的分野
本発明は主に言語習得と関係する。具体的には、本発明の実施例は第二言語（「対象言語」とも呼ばれる）の習得を補助するシステムと方法に関連する。特に、本発明の実施例は、注記のある視覚的表現、又は一部非表示処理された視覚的表現を含む対象言語のコンテンツを、同コンテンツの聴覚的表現と共に表現させることで、言語の聴解力が向上するシステムと方法に関連する。

背景
学習者が母語、又は既に流暢に話せるもう一つの言語を除いた言語（文中、一般的に「対象言語」と呼ばれる）を学習しようとする際、通常は簡単な文型と基本的な語彙から学習を始めようとする。（例：「卵を食べました」）から始まり、その後時間をかけ、徐々にもっと複雑な文型へ取り組むようになる（例：「もし強い卵アレルギーがなければ、礼儀を示すためにだけそのポーチドエッグを食べることにしたであろう」）。忍耐力とよく設計された課程が用意されていれば、初級の学習者は読む、書く、話すスキルにおいて、高いレベルの流暢性、又は母語並みの流暢性を得ることができる。

しかし、高度な聴解力を身に付けるには異なるアプローチが必要である。対象言語において、聴解力以外のスキルで高いレベルに達している多くの学習者が会話においても（特に電話での会話）又は映画を見ても、実際の場面で自然に話している母語話者を理解するのに苦しむことがある。耳が会話に付いていくのに足りる速度で音声を意味に変換することができない他、相手が強い訛りで話す場合又は早いスピードで方言を使用する場合、何も理解できないことがある。

多くの言語習得方法とツールが、減速された発話速度と限られた文型のみが使用される、人工的に作られたフォーマルな「学習者用発言」だけを学習者に提供する方法を使用するが、上記の観点から、前記ツールは不適切なツールだと言える。学習者がより簡単に消化できるように音声もコンテンツも簡略化されている。しかし、発話の意味を解釈するために存在する人間の神経回路は、真性の音源ではないと学習することができない。（「学習者用発言」と真性な発言の間に表面的な類似点が存在するとしても）真性の音源は「学習者用発言」と完全に異なる音声である。

しかし、学習者に真性な話し言葉を提供する言語習得ツールでは別の問題が発生する。前記コンテンツは、使用される場面の性質から、学習者が補助なしに理解できないほど難しく、繰り返して聞いても通常理解できるようにならない。一般的には、こういったツールが学習者が付いていけるように完全なトランスクリプト又は時折完全な翻訳文を提供する。しかし、残念ながら、完全なトランスクリプト又は完全な翻訳文が必要以上な補助を提供することになってしまい、文章を理解するプロセスは耳よりも目を通して行われるようになる。この時点では、聞き取りの練習よりも、音声を聞きながらの読み取る練習になってしまう。

学習者は、真性な話し言葉を聞きながらも理解に「近づける」ことができるほどの補助をもらいながら、最終理解に至る重要な作業を耳に任せる、というバランスのとれた「中間地」を見つけなければならない。必要な神経回路を発展させるには、耳を能動的に働かせることは不可欠である。

また、聴解力のトレーニングと共に、学習者は、学習者用教材の制作者にとって盛り込みにくい自然なイディオムに慣れる必要もある。そして、真性な話し言葉を含む音声を提供する学習用商品があっても、ユーザーに提供されるインターフェースは複数の単語からなる単語のグループを扱い、文脈に沿った翻訳を提供するよりも、「単語を一つずつ選択し、前記単語を辞書から引く」形でインターフェースを提供している。

そこで、改善された言語学習システムと方法が望まれている。

概要
上記の問題を含む問題を解決するためには、独学を実施する又は補助する、コンピューター実装の外国語（第二言語、第三言語、その他外国語、文中には通常「対象言語」とされる）の聴解力を向上させるシステムと方法の実施例は本明細書で開示される。前記実施例は、あるコンテンツを聴覚的表現として提供すると同時に、前記コンテンツに対応するトランスクリプトの視覚的表現を同時に提供し、学習者による言語習得の効率性を向上させるように図る様、両表現が連携される（表現が同期化される）こともある。

言語習得システムの実施例は、ユーザーが会話に参加する場面、取引を実施する場面、又はメディアを視聴する場面等、実際に起こりうる場面で母語話者と同じレベルの聴解力を身に付ける様、様々な自然な訛り、話し方、速度で話される対話の聞き取りを練習させる。
聴解力の訓練と共に、実施例は学習者においては、持続可能且つ実用性のある理解語彙の構築にもつながる。

特定の実施例は、ユーザーの注意力を、表現要素の中の、対象言語学習に最も役立つ要素に当てるために調整されることがある。又はユーザーが主に表現の一つの要素に注意できる様にコンテンツの表現を変更させることもある。
例えば、実施例が、音声コンテンツと同時に提供されるトランスクリプトの一部又は全部が完全に非表示処理された視覚的表現を利用することがある。

具体的には、実施例は学習者が音声コンテンツを持って第二言語（又はその他多言語）の学習が出来るような機能を含むこともあり、前記機能は個別に使用される場合と併用されることもある。
実施例が録音されたあらゆる言語コンテンツ（オーディオブック、ラジオの劇、講演、音楽を含むが、これに限定されるものではない）から学習するのに有用だが、実施例が特に有用性を発揮するコンテンツは最も難易度の高いコンテンツ、つまり自然かつ計画されてない発言で、慣用句を多く含み、話者の年齢、出身地、文化的背景の特徴を反映させる発言コンテンツである。

よって、実施例は、学習者が対象言語の録音された音声を使用し、聴解力を向上させようとする際、補助を提供する様に設計された複数の単独使用又は併用使用機能を含むことがある。前記機能は、録音された音声の中で、対象言語で発言された単語からなるトランスクリプトの表示に関連する機能、そのトランスクリプトの部分的非表示に関する機能、学習者にとて役立つ情報の概要を提供するトランスクリプトに付随される注記に関する機能、ユーザーがトランスクリプトの特定な要素と相互作用する機能、音声の録音を再生することと関連を持つトランスクリプトの中の可動表示に関する機能、又はトランスクリプトの一部にユーザーの注意力を当てさせる機能も存在しうる。前記機能を一括して、「トランスクリプト関連機能」と呼ぶことができる。

ある実施例に存在するその他の機能は、トランスクリプトの翻訳文章（通常は学習者の母語で書かれた翻訳文章）に関連する機能、学習者にとって役立つ情報の概要を提供する翻訳文章に付随される注記に関する機能、録音された音声を再生することと関連を持つ翻訳文章の中の可動表示に関する機能、又は翻訳文章の一部にユーザーの注意力を当てさせる機能も存在しうる。これらの機能を一括して、「翻訳文章関連機能」と呼ぶことができる。

ある特定な実施例における他の機能は、聞き手に録音の音声を処理する時間をより多く提供するために録音された音声を変更する機能、又は学習者に話の流れをよりよく理解するために追加情報を読むための時間を与える機能である。これらの機能を一括して、「音声変更機能」と呼ぶことができる。

又、ある特定な実施例では、学習者が学習中に、録音された音声の中から復習用に選択した難易度の高い語彙に対する聴解力を練習するための方法に関連する機能もある。これらの機能を一括して、「語彙の音声レビュー機能」と呼ぶことができる。

更に、ある実施例では、もっと長い、録音された音声の各章（章とは、切り分けられた音声区分で、ある実施例において１分から４分の長さを持つ）を複数の聞き取る方法又は学習する方法で、続けて視聴する機能であり、ユーザーが学習してきたコンテンツを効率よく強化し、自然な母語話者による発声にユーザーの耳を馴らせ、典型的な注意力持続期間に合わせて調整された機能もある。これらの機能を一括して、「学習フロー機能」と呼ぶことができる。

詳細を更に説明することとする。ある実施例では、「トランスクリプト関連機能」と「翻訳文章関連機能」は以下のものを含む。これらの機能は本明細書で一緒に説明されるが、各実施例にはより少ない機能が実装されても、又はいずれの機能も実装されないとしても、本発明の一般性が損なわれないこととする。

「単語毎の非表示処理」はトランスクリプトの各単語を「バー」「マスク」「不透明なボロック」（前記単語は置き換え使用することが可能）に置き換え、非表示処理された単語の視覚的特徴を一部維持させる方法である。例えば、英語やスペイン語等ラテン文字で書かれる言語の場合、マスクの長さは非表示処理された単語の長さを示す。一方、日本語の様に複数の異なる文字を併用する言語（日本語は「漢字」と呼ばれる中国由来の文字、「平仮名」と「片仮名」と呼ばれる音節文字、「ローマ字」と呼ばれるラテン文字を使用）の場合、非表示処理された文字の種類を、非表示機能に使用されるシンボルの塗りつぶす方法で示すことが可能となる。各漢字の発音に使用される音節の数はマスクのその他の視覚的要素で示すことも可能である。

「ワードグループの表現と操作」は、単語一つから構成されても「ワードグループ」と呼ばれる、異なる種類の単語グループを、編集過程中に選択する工程を言う。「ワードグループ」の異なる種類は、学習者が後程の復習用に「語彙リスト」に追加することができる「語彙」と呼ばれる単語グループ、及びは出現頻度が高くても、発声の仕方により母語話者にとって分かりにくい「聞き取りづらい単語」」（例：強い訛りで話される単語、音脱落を伴う高速発言等）と呼ばれる単語グループ、及びは誤用や非標準的な使用（話者がその単語を意図して使用していない場合も多い）を含めた「非標準」と呼ばれる単語グループ及び、使用頻度の少ない固有名詞やあまり知られていない文化的言及からなる「メモ」も含まれる。
各ワードグループの種類は、例えば、特定な色の下線によって区分けされることも可能であり、又各ワードグループの種類は異なるユーザー操作を可能とする要素を有することがある。

「選択的非表示処理」とは、前記非表示処理はトランスクリプトにおける一部の単語にしか適用されない状況を言う。非表示の程度が異なる複数の非表示状態を用意することにより、各ユーザーが対象言語に対する自らの能力に合致する非表示状態を選択することを可能とし、困難に陥ることなくコンテンツに付いて行きつつ、「耳」を働かせて、非表示の文を穴埋めし、詳細の意味を導き出せる様にする。学習者は、ある特定なワードループを除いて（例えば「語彙」と「非標準」）を全て非表示処理にすることができる。別の選択肢として、学習者は全ての単語を非表示処理とし、ワードグループを、必要に応じて、一つずつ表示させることもできる（表示させるには、例えば、画面上のワードグループをタップする方法はある）。又は、上記の方法を組み合わせた方法を使うことも可能である。

「同期されたオーディオハイライト」は、トランスクリプトが完全に非表示処理されている場合、部分的に非表示処理されている場合、又は完全に表示されている場合において、トランスクリプトの中で現在発話されている単語、ワードグループ、文、段落、現在の話者、又は現在発話されている章のセクションがどうハイライトされるかを説明する機能である。ある単語が発話されるとほぼ同時に、前記単語の、非表示処理された表現がハイライトされれば、文章を全て表示されることなく、学習者にどの様な単語が聞こえてくるか、ヒントを与えることができる。翻訳文の中の文、段落、話者や章のセクションに対してもハイライトを同様に付けることができる。又、現在再生されているコンテンツを、例えば特定な色で、ハイライトすると共に、トランスクリプトと翻訳文の中で既に再生されたコンテンツとまだ再生されていないコンテンツを視覚的に区別することもできる。この機能は、学習者がトランスクリプトを見ながら音声を巻き戻した際、巻き戻す前の再生位置を確認できるのに有効だ。

「セクション・ヒント」は編集者がトランスクリプトに追加するものである（編集者は、前記ワードグループを選択し、注記を付ける作業を担うこともある）。音声で聞く物語又は会話が進んでいくにつれ、話題が次々と移り変わっていく。非母語話者が聞く場合、話の「曲がり角」を認知し損ね、全体の文脈を勘違いし、迷子になることがしばしばある。編集者は短いメモ、つまり章の一節を冠するタイトルの様な「セクション・ヒント」を追加し、話題が変わったことを示すことができる。学習者は、かかる文章の音声を最初に再生されたタイミングでヒントを自動的に表示させるか、或いは、意味が分からなくなった時にだけ必要に応じて一つずつヒントを表示させるか、どちらかのやり方を選択することができる。

「話者情報」は、トランスクリプトや翻訳文の中にある、録音された音声で発言している人物の名前や役割を説明する視覚的表現を言う。この機能を追加して、学習者、話者についての追加情報を提供する説明文を開くことができる。学習者が録音された会話又は複数の登場人物が登場するオーディオブックを聞く場合、声だけで登場人物を区別することが難しく、又は登場人物の相互関係や登場人物と話の流れの関係が覚えにくい。

「状況依存型補助」は、学習者が特に難易度の高い文で進まなくなった際、トランスクリプトと翻訳文の視覚的表現が変更すること、又は追加補助機能の提供されることを言う。表示からトランスクリプトと翻訳文以外の要素を削除し、ある文のトランスクリプトも翻訳文も同時に表示される様にするための空間を確保することも可能である。追加補助機能は再生を極端に遅くした「カタツムリモード」にすることもでき、又は繰り返し集中しながら聞くために文の音声をループ機能として提供することが可能である。追加補助機能がある特別なモードだと、学習者はセンテンスごとに進むことができる。別の実施例では、学習者が巻き戻し機能を使用すると、追加補助機能がユーザーに提供される。

ある実施例では、音声を変更させる機能は以下の機能から構成される。「オーディオカーニング」は組版技術の一つであるテキストのカーニング（文字の間の感覚を調整すること）を捩った表現で、発話された音声が、対象言語の聴解力を訓練させるツールとして自然な音を保ちながら「時間軸で伸ばす」プロセスを言う。通常は、オーディオを時間軸で伸ばす場合でも、時間軸で縮ませる場合でも、聞き手が感じ取るオーディオの高低に影響を与えないディジタル信号処理アルゴリズムが用いられる。しかし、前記アルゴリズムは音のゆがみや雑音を生じさせることがあり、不自然な音声も生じさせることがある。実施例は文又は単語の間もしくは途中で自然発生する無音領域を感知し、発話された単語を伸ばすことなく、音声が途切れる無音領域だけを伸ばすことができる。そうすれば、学習者が常に自然に発話されている単語を聞くことができるが、聞きとる際、時間的な余裕がより多く取ることができ、音声のンテンツについていけなくなる可能性が減る。

「連続的集中力促進機能」は学習者が章を視聴していく中で、より効果的な集中力を促すために、ソフトウェアプログラムの指示を使用し、音声の再生を一時停止させたり、又はもう一度再生させたりする機能を言う。例えば、学習者がセクションを読み始める際、セクション・ヒントが自動的に表示されるが、学習者が、次の対象言語音声を同時に聞くことなく、そのヒントを読んで理解できるように、プレイヤーは音声を数秒間一時停止させることができる。学習者が、前記記述されたワードグループをめぐる操作又は登場人物の説明文を読む場合でも、音声プレイヤーを一時停止させることが可能であり、これも学習者が一つの作業にだけ集中できるような設計である。

アプリに組み込まれている新しい「学習フロー」機能は、学習者における通常の集中持続時間を参考にしながらも、聴解力の訓練がより高い効果を持つように、コンテンツの中の同じ章を複数の異なる方法を用い、立て続けに聞くことも可能とする。精神的な疲労を感じることなく「消化できる」長さの音声で聴解力を極めるプロセスを補助するには、必要以上の長さを有しない、理想的には４分の長さを超えない音声を使用することが重要である。前記補助機能や追加情報の手助けを得ながら章を勉強した後に、自然な速度で補助を得ずに同じ章をもう一度そのまま聞き直しをすることが学習者にとって重要である。もう一度聞く前に、学習者が既に語彙、テーマ、そして音声の特徴に慣れているはずである。よって、最後の聞き取りは、母語話者と同じように聞くことになり、必要な集中力が減るため、母校話者が発言する音がより学習者の脳に入り込むことになる。

「音声語彙レビュー機能」は、学習者が学習したコンテンツで出会った語彙を復習したり練習したりするための新しいアプローチを可能とする。多くの言語習得法は語彙の復習のためにフラッシュカード機能を提供する。多くの場合はフラッシュカード機能が間隔復習システムで提供される。しかし、実施例では、別のアプローチを取ることができる。まず語彙となる単語の音声による認知に集中し、その後、音声による物語又は会話の中での文脈における意味合いを理解することとする。よって、慣用句が多く、単語の意味合いが文脈による度合いが強い場合、実施例が有効である。

従って、一つの実施例では、言語学習のためのシステムはサーバーとクライアントアプリケーション（例：Ｊｉｖｅｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎ）を実行するクライアント端末を含む。サーバーは、対象言語のコンテンツが記録された音声ファイルを受信し、対象言語の音声ファイルのコンテンツにある単語を記録するトランスクリプトも受信できる。音声ファイルとコンテンツにある単語を記録したトランスクリプトから、サーバーはトランスクリプトの中の各単語に対応する「単語タイムスタンプ」を含むタイムスタンプファイルを作成し、「単語タイムスタンプ」が前記単語がコンテンツの中に再生するタイミングに対応する。サーバーは、トランスクリプトとタイムスタンプファイルを基に、「トランスクリプトとタイミングファイル」（Ｔ＆Ｔｆｉｌｅ）作成することもできる。「トランスクリプトとタイミングファイル」は音声ファイルのコンテンツを記録するトランスクリプトの各単語と、音声ファイルのコンテンツを記録するトランスクリプトの各単語に対応する「単語タイムスタンプ」から構成されることもある。

この実施例では、クライアント端末にあるクライアントアプリケーションが音声ファイルとそれに対応する「トランスクリプトとタイミングファイル」を受信し、クライアント端末におけるプレイヤーを通し、音声ファイルのコンテンツを聴覚的に表現することができる。音声ファイルのコンテンツの聴覚的表現と同時に、クライアントアプリケーションが「トランスクリップトとタイミングファイル」を使用し、インターフェースを動的に作成することができる。該当するインターフェースは対象言語のコンテンツを示す文字トランスクリプトの視覚的表現を含む。

文字トランスクリプトの視覚的表現がオーディオプレイヤーによる聴覚的表現と同期される。又前記視覚的表現はコンテンツに出現する単語の文字トランスクリプトを含み、コンテンツに出現する単語の文字トランスクリプトは非表示処理がなされた単語と非表示処理がなされていない単語を含む。視覚的表現の中にある非表示処理がなされた単語の非表示処理は、前記非表示処理がなされた単語の長さに合わせて調整されたマスクを用い、前記非表示処理がなされた単語を置き換えることによって実装されるが、非表示処理がなされていない単語はそのまま対象言語の文章の中で視覚的表されることとする。特に、マスクは、対象言語をインターフェースの中で表示する際に使用されるフォントの形に沿い、形を整えることを可能とし、前記形は前記単語が持つその他書き言葉としての特徴、話し言葉としての特徴又は文法特徴を表すことがある。

更に、コンテンツの文字トランスクリプトを示す視覚的表現はコンテンツの聴覚的表現と同期されるが、同期処理は、「トランスクリプトとタイミングファイル」の中にある前記単語に対応するワードタイムスタンプとオーディアプレイヤーのステイタスを用い、前記単語が聴覚的表現の中で表現されていることを特定することでなされることとし、視覚的表現における前記単語の表現は前記単語の聴覚的表現の中の表現とほど同時にハイライトされる上、前記単語が非表示処理がなされた単語に属するのであれば、前記単語に対応するマスクがハイライト処理されるが、前記単語が非表示処理がなされていない単語に属するのであれば、単語のテキスト表示そのものがハイライト処理される。ハイライト処理は音声再生と同時に視覚的表現されている単語の色を変えることを含む。

ある実施例では、非表示処理がなされていない単語は一つ又は一つ以上のワードグループの種類を含め、そのワードグループの種類は「語彙」「非標準」「聞き取りづらい単語」」と注記の付けられた単語を含む。
前記一つ以上のワードグループは、例えば、クライアントアプリケーションのインターフェースを使用することでユーザーによって選択されることも可能とする。

ある実施例では、ユーザーがインターフェースで表示される一つ以上の単語に関連する操作を実施したことにより、インターフェースが動的に作成される過程で前記一つ以上のワードを確定することとする。

ある実施例では、非表示処理がなされた単語と非表示処理がなされていない単語の比率はユーザーが要求する補助の程度によって変更されることとする。

ある実施例では、音声ファイルの中に存在する、文と文の間、又は文の途中で発生する自然な無音領域は、ソフトウエアプログラミング技術を用い、聴覚的表現と文字トランスクリプトの単語の間にある同期処理を保ちつつ、長くすることを可能とし、音声の性質と特徴を変えることなく、学習者に、視聴しながらの「考える時間」をより多く与えることが可能である。

上記の発明の要素とその他の開示の要素は、下記の明細と付随される図面と共に解釈するとより良く把握、理解される。
下記の明細が発明の複数の実施例と前記実施例の詳細を数多く示すが、下記の明細は発明の可能性を描写するものであり、発言を限定するものではないと理解すべきである。発明の本質から逸脱ことなく、発明の範囲内には多くの置換、改修、追加及び・又は組み換えが可能となり、前記発明は全ての置換、改修、追加及び・又は組み換えを含むものとする。
本発明は、例えば、以下の項目を提供する。
（項目１）
言語学習システムであって、前記言語学習システムは、
プロセッサと非一時的コンピューター読み取り可能な媒体とを含むサーバーであって、前記非一時的コンピューター読み取り可能な媒体は、
対象言語におけるコンテンツを備えている音声ファイルを受信することと、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいてトランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプを備えている、ことと
を行うための命令を備えている、サーバーと、
クライアントデバイスであって、前記クライアントデバイスは、プロセッサーとクライアントアプリケーションとを備え、前記クライアントアプリケーションは、
前記音声ファイルと、前記対応するトランスクリプトおよびタイミングファイルとを入手することと、
前記クライアントデバイスにおけるオーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、トランスクリプトおよびタイミングファイルを使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、オーディオプレイヤーによる聴覚的表現と同期化され、前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記視覚的表示において対応するマスクとして表現することによって非表示処理され、前記マスクは、前記対応する非表示処理された単語に従ってサイズを決定され、
前記非表示処理されていない単語の組は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプとオーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を行うための命令を含む、クライアントデバイスと
を備えている、言語学習システム。
（項目２）
前記非表示処理されていない単語の組は、１つ以上のワードグループのカテゴリーを含み、前記ワードグループのカテゴリーは、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、項目１のシステム。
（項目３）
前記１つ以上のワードグループカテゴリーは、前記インターフェースを使用するユーザーによって選択される、項目２のシステム。
（項目４）
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、項目１のシステム。
（項目５）
前記クライアントアプリケーションは、要求される補助の度合いに基づいて、前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率を改変するための命令を備えている、項目１のシステム。
（項目６）
前記マスクは、前記対応する単語の特性に基づいて形を決定される、項目１のシステム。
（項目７）
前記サーバーの前記非一時的コンピューター読み取り可能な媒体の前記命令、または前記クライアントアプリケーションの前記命令は、
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
を行うための命令を含む、項目１のシステム。
（項目８）
言語学習方法であって、前記言語学習方法は、
対象言語における音声コンテンツを備えている音声ファイルと、対応するトランスクリプトおよびタイミングファイルとを入手することであって、前記トランスクリプトおよびタイミングファイル」は、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいて前記トランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイル前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプを備えている、ことと
によって生成される、ことと、
オーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、「トランスクリプトとタイミングファイル」を使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、オーディオプレイヤーによる聴覚的表現と同期化され、前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記視覚的表示において対応するマスクとして表現することによって非表示処理され、前記マスクは、前記対応する非表示処理された単語に従ってサイズを決定され、
前記非表示処理されていない単語の組は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプとオーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を含む、言語学習方法。
（項目９）
前記非表示処理されていない単語の組は、１つ以上のワードグループのカテゴリーを含み、前記ワードグループのカテゴリーは、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、項目８の方法。
（項目１０）
前記１つ以上のワードグループカテゴリーは、前記インタフェースを使用するユーザーによって選択される、項目９の方法。
（項目１１）
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、項目８の方法。
（項目１２）
前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率は、要求される補助の度合いに基づいて、改変される、項目８の方法。
（項目１３）
前記マスクは、前記対応する単語の特性に基づいて形を決定される、項目８の方法。
（項目１４）
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
をさらに含む、項目８の方法。
（項目１５）
非一時的コンピューター読み取り可能な媒体であって、前記非一時的コンピューター読み取り可能な媒体は、
対象言語における音声コンテンツを備えている音声ファイルと、対応するトランスクリプトおよびタイミングファイルとを入手することであって、前記トランスクリプトおよびタイミングファイル」は、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいてトランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプを備えている、ことと
によって生成される、ことと、
オーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、「トランスクリプトとタイミングファイル」を使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、オーディオプレイヤーによる聴覚的表現と同期化され、前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記視覚的表示において対応するマスクとして表現することによって非表示処理され、
前記非表示処理されていない単語の組は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプとオーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を行うための命令を含む、非一時的コンピューター読み取り可能な媒体。
（項目１６）
前記非表示処理されていない単語の組は、１つ以上のワードグループのカテゴリーを含み、前記ワードグループのカテゴリーは、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、項目１５の非一時的コンピューター読み取り可能な媒体。
（項目１７）
前記１つ以上のワードグループカテゴリーは、前記インタフェースを使用するユーザーによって選択される、項目１６の非一時的コンピューター読み取り可能な媒体。
（項目１８）
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、項目１５の非一時的コンピューター読み取り可能な媒体。
（項目１９）
前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率は、要求される補助の度合いに基づいて、改変される、項目１５の非一時的コンピューター読み取り可能な媒体。
（項目２０）
前記マスクは、前記対応する単語の特性に基づいて形を決定される、項目１５の非一時的コンピューター読み取り可能な媒体。
（項目２１）
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
を行うための命令をさらに含む、項目１５の非一時的コンピューター読み取り可能な媒体。

前記明細書に付随され、明細書の一部と見なされるこの図面は発明のある側面を描写するためのものである。例を示すために提供され、限定性を持たない前記の図面の中で描写される実施例を参照とすることで、発明の性質、又は発明を構成部品、又は、発明と共に提供されるシステムの操作がより明確になる。又、前記図面の中で同一の数字は同一の構成部品を指す。なお、図面の中で描写される機能の相対的大きさが必ずしも実物の相対的大きさとは一致しない。

図１Ａ及び１Ｂは言語学習システムの実施例で使用できるインターフェースを表している。

図２Ａ、２Ｂ及び２Ｃは言語学習システムの実施例で使用できるインターフェースを表している。

図３Ａ、３Ｂ及び３Ｃは言語学習システムの実施例で使用できるインターフェースを表している。

図４Ａ、４Ｂ、４Ｃ及び４Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図４Ａ、４Ｂ、４Ｃ及び４Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図４Ａ、４Ｂ、４Ｃ及び４Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図４Ａ、４Ｂ、４Ｃ及び４Ｄは言語学習システムの実施例で使用できるインターフェースを表している。

図５Ａ、５Ｂ及び５Ｃは言語学習システムの実施例で使用できるインターフェースを表している。

図６Ａ、６Ｂ及び６Ｃは言語学習システムの実施例で使用できるインターフェースを表している。

図７は言語学習システムの実施例で使用できるインターフェースを表している。

図８Ａ及び８Ｂは言語学習システムの実施例で使用できるインターフェースを表している。図８Ａ及び８Ｂは言語学習システムの実施例で使用できるインターフェースを表している。

図９は言語学習システムの実施例で使用できるインターフェースの一部を表している。

図１０Ａ、１０Ｂ、１０Ｃ及び１０Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図１０Ａ、１０Ｂ、１０Ｃ及び１０Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図１０Ａ、１０Ｂ、１０Ｃ及び１０Ｄは言語学習システムの実施例で使用できるインターフェースを表している。図１０Ａ、１０Ｂ、１０Ｃ及び１０Ｄは言語学習システムの実施例で使用できるインターフェースを表している。

図１１Ａ、１１Ｂ及び１１Ｃは言語学習システムの実施例で使用できるインターフェースを表している。

図１２Ａ、１２Ｂ及び１２Ｃは言語学習システムの実施例を示すブロック図である。図１２Ａ、１２Ｂ及び１２Ｃは言語学習システムの実施例を示すブロック図である。図１２Ａ、１２Ｂ及び１２Ｃは言語学習システムの実施例を示すブロック図である。

図１２Ｄは区分分け工程の一つの実施例を示す図である。

図１２Ｅ及び１２Ｆは言語学習システムの実施例が使用できるインターフェースの例を示す図である。図１２Ｅ及び１２Ｆは言語学習システムの実施例が使用できるインターフェースの例を示す図である。

図１３、１４Ａ及び１４Ｂはマスクの作成構成を示す図である。図１３、１４Ａ及び１４Ｂはマスクの作成構成を示す図である。図１３、１４Ａ及び１４Ｂはマスクの作成構成を示す図である。

図１５及び１６はテキストの要素にアドレスを付与する方法を示す図である。図１５及び１６はテキストの要素にアドレスを付与する方法を示す図である。

図１７はカーソルの使用法を示す図である。

図１８はカーソルマネジャーの構造を示すブロック図である。

発明の詳細な説明
前記発明及び前記発明の機能と優位性をもたらす詳細情報は、付随される図面で描写され、下記の詳細な説明で説明される、限定性を有しない実施例を参照に更に詳しく説明される。発明の詳細を分かりにくくすることを回避するため、周知の出発材料、処理技術、構成部品と装備が割愛される。下記の発明の詳細な説明及び特定な実施例が、発明の実施例を示すものではあるが、発明を描写するためのものであり、発明を限定するものではないと理解すべきである。根底にある発明性のある概念の本質及び・又は範囲内にある複数の代替案、改修案、追加案又は組換案が、当業者にとっては前記開示から明らかになるであろう。

本明細書で開示される特定の実施についての詳細を詳しく説明する前に、関連情報を提示することが発明の詳細な説明を解釈するのに役立つと考えられる。まず、ほとんどの非母語話者にとっては、自然な発言を理解することが本質的には難しく、新鮮な発言に直接触れ、生活上に存在する実際の場面で会話が出来るようなスキルを身に付けることが重要である。対象言語のほぼ全ての母語話者と本物の会話ができるような言語能力水準（それは、一般的に「日常会話力」と呼ばれる能力を遥かに超えた能力である）に達することは、言語習得においての重要な節目である。この節目は学習者が対象言語を学習するよりも使用した方が言語能力水準を高め、持続可能な流暢性へと言語能力水準の上昇を加速していく節目でもある。

音声教材そのものを簡略化させ、学習者が補助なしに理解できる水準に近付かせさせるアプローチは望ましくない。速度を落とした発言と自然な発言を減速させた発言は同様なものではない。また、教育学的な理由を持って会話のコンテンツを意図的に改修していくと、発言の自然のリズムと節が損われる。ビニール材料が表面的に本物の木材に見える場合もあると同時に、意図的に改修されて会話は本物の言語使用例に見える場合はあるが、同質なものと全く言えず、作成方法も同等ではない。

そこで、妥当性のある時間軸、例えば数ヶ月に亘って、学習者が理解できない教材そのものを使用し学習者を補助なしに自然な発言を聞き取り且つ理解するレベルまで担ぎ上げる方法を規定するのが解決すべき難題である。学習水準の上昇曲線は、学習者が前に進むことができるほど浅いが、進歩をもたらす程険しくなければならない。

既存の解決策は問題を伴う。まず、それらは、学習者が教材についていけるように録音された音声に対応する完全なトランスクリプトと完全な翻訳文を提供する場合もある。しかし、これらを主な補助ツールとして使用した場合、学習者が効果的でない援助を過剰に受けることになる。単語が書いてあると、読まずにいるのが難しく、読書する動作は、耳を避けて通る。この場合は、学習者は単語が既に解釈されている時点でしか単語を聞かないので、母語話者の発声する音を解釈するための脳回路が使用されない。既存の解決策は文字トランスクリプトの中にある単語を選択させ、その単語の辞書通りの定義が表示されるインターフェースを提供する場合もある。このような機能は最初に有用であると思われることもあるが思われるほどの有用性を持たない。自然に発言される言葉（又はオーディオブックやその他音声表現で使用されるような豊富な書き言葉）は繊細な使用法や文脈に依存する表現がたくさん含まれ、その定義は文脈を伴わない辞書通りの定義と異なる。

一般的には、既存の各種アプリケーションをめぐる問題の一つとして、各種アプリケーションと方法が、発音が明瞭かつフォーマルであり、限定された範囲内でしか文型や語彙を使用しない「教室用に設計された発言」だけを学習者に提供することである。意図的に設計された発言、つまり教育課程の要求を参考に設計された発言である。問題は、生徒が教室用に設定された例えばスペイン語を理解することができるが、自然な形（例えば母語話者が一般的な発言の中で頻繁に使用する文型）を理解することができないときである。

既存の言語学習アプリケーションにおけるもう一つの課題としては、聴覚的表現に対応する完全たる文字テキスト又は文字トランスクリプトを表示させれば、学習の焦点が聴覚的表現を理解することより、視覚的表現に移ることになる。例えば、外国語を学習する多くの学習者にとって、テレビを視聴することで聴解力を訓練させようとする際に生じる問題としては、字幕がなければ、コンテンツについていくことが難しすぎるか、字幕（対象言語のトランスクリプト又は翻訳文）を表示させれば、前記訓練は聴解力の訓練よりも読解力の訓練になる。聴解力を向上させることが言語学習の目的であるため、聴解力を十分に訓練させるために耳を十分に働かせる同時に、難解な教材でも勉強が進むように十分な補助を与えることも望ましい。

集中的に注意力を払うと能動的な学習効果が上がる。聞き取り練習はリアルタイムで行われるのでこの傾向が特に強い。学習者が耳元に届く音波をコントロールすることができないので、その音波を「波乗り」し、常に言葉を理解し続ける必要がある。学習者が数秒前に発言されたことについてまだ考え込んでるようなことがあるとすれば、今現在耳元に届いてる音声に注意力を払うことができなくなる。乗っている波から落ちれば、再び乗るのが難しくなる。この状況は、言語学習者が対象言語における聴解力を向上させるために言語を学習する能力をさらに妨げる。

よって、独学を実施する又は補助する、コンピューター実装の外国語（第二言語、第三言語、その他外国語、文中には通常「対象言語」とされる）の聴解力を向上させるシステムと方法の実施例は本明細書で開示される。前記実施例は、あるコンテンツを聴覚的表現として提供すると同時に、前記コンテンツに対応するトランスクリプトの視覚的表現を同時に提供し、学習者による言語習得の効率性を向上させるように図られる様、両表現が連携されることもある。

言語学習システムの実施例は、ユーザーが会話に参加する場面、取引を実施する場面、又はメディア（例えば、テレビ番組、映画、ラジオ番組、ポッドキャス）を視聴する場面等、実際に起こりうる場面で母語話者と同じレベルの聴解力を身に付ける様、様々な自然な訛り、話し方、速度で話される対話の聞き取りを練習させる。
聴解力を訓練させると同時に、実施例は学習者が保持可能且つ実用的な理解語彙（学者者が自らの発言の中で利用できないとしても、認知できる単語類）の構築を促す。

聞き取り脳は、パターン認知学習装置である。よって、前記実施例は真正な発言を提供することで前記発言に含まれるパターンを吸収する論理に基づいて成り立っているのである。よって、文字トランスクリプトの非表示、発言速度の調整、又は「聞き取りづらい単語」」なコンテンツ（非母語話者にとって発話された音声が特に理解しにくい部分）をハイライトさせる機能、標準的又は誤った使用例（誤用語、非標準的な文法）についてのメモ、又は文脈の中の発音についての一般的なメモも実施例に含まれることができる。

よって、本明細書で開示される実施例（Ｊｉｖｅｗｏｒｌｄシステム、Ｊｉｖｅｗｏｒｌｄアプリケーション、Ｊｉｖｅｗｏｒｌｄ技術又は単独でＪｉｖｅｗｏｒｌｄと呼んでも、一般性が損なわれることはない）は、母語話者のために、母語話者による、広範に亘る自然な場面で録音された発言に対して用いられると、特に有用性を発揮するが、実施例はその他の場面でも有効に使用されることもある。具体的には、実施例が母語話者とのラジオインタビュー、オーディオブックやオーディオ雑誌等における自然な発話を録音された音声に対して使用することができるが、必要に応じて音楽の歌詞や映像のコンテンツを含め、対象言語のほぼ全てのコンテンツに対して使用することが可能である。

特定な実施例は、表現の要素の中で、最も第二言語学習に最も役立つ要素にユーザーの注意力を当てさせるために調整されることができ、又はユーザーが主に表現の一つの要素に注意できる様にコンテンツの表現を調整されることもある。
特に、インターフェースのある実施例はユーザー（つまり学習者又は聞き手）が一つだけの側面に集中するように調節されており、その理由は聞き手を「コンテンツをギリギリ理解できる領域」に居続けさせ、文字トランスクリプトの中の凡そどの辺りを聴いているか分かるために十分な追加情報を提供しつつ、聴覚的表現に付いていくために払うべき労力がもう耳と脳にとって残っていない状況が生じないように、補助を過剰に与えないようにすることがＪｉｖｅｗｏｒｌｄアプリケーションの一つの目的である。

例えば、Ｊｉｖｅｗｏｒｌｄのシステムが、音声コンテンツと同時に提供される文字トランスクリプトの一部又は全部が非表示処理されたような視覚的表現を利用することがある。表示処理は非表示処理がなされたトランスクリプトの各単語をマスク（特定の単語又は複数の単語を視覚的に隠すもの）で隠すことで実施することもできる（例えば、非表示処理がなされていない単語は対象言語のテキストとして表示される）。前記マスクは、非表示処理される単語と同じ位の大きさ（例えば長さ、高さ）で表示することができ、そのことによってユーザーに単語そのものを見せることなく、ユーザーが単語の輪郭を認知することができる。この輪郭は単語が書き言葉として、又は話し言葉としての長さに対するヒントを与えることになるので（特にアルファベットを使用する言語の場合）、学習者によるより正確な聞き取りが促される。

文章のテキスト又は非表示処理をするためのマスクは特定の（例えば、よく目立つ）色で表示されることができる。視覚的表現の中、ある単語、例えば、現在発話されている単語（例：視覚的表現に対応する聴覚的表現）に関連する属性又は前記単語の位置に関連する属性、又は提示されている音声コンテンツの課題変更に聞き手の注意力を当てさせる背景情報についてのメモやヒント、を視覚的に示すために特定の色を使用することが可能である。

よって視覚的表現は動的なものであり、例えば、表示されている文字の色或いは非表示処理用のマスクの色がコンテンツの聴覚的表現に基づいて（及びに関連して）変化することがある。この関連で、ある実施例では、視覚的表現の中にメモやヒントが提示される際、前記コンテンツの聴覚的表現に一時停止処理を（例えば）自動的に挿入させることが可能である（あるコンテンツを読みながら異なるコンテンツを同時に聞く状態を聞き手において生じさせないため）。

言語学習システムの実施例によるコンテンツの提示は人間がどのように適用し、学習するかを考慮して設計することが可能であり、それによってユーザーの注意力を調節するようにシステムを調整することも可能である。ジムである特定な筋肉を訓練させると同様に、学習における集中する工程にも、作業と回復の自然なサイクルが存在する。集中する期間が長すぎれば、集中ができなくなるが、集中する期間が短すぎれば、学習の勢いと持続力が損なわれる。よって、聴覚訓練における持続的向上を得るためには、実施例は学習コンテンツを上記のような「作業と回復を繰り返すサイクル」に沿い、提示することができる。

特に、Ｊｉｖｅｗｏｒｌｄの言語学習システムの実施例における、聴解力向上のためのコンテンツ提示は、ある程度の長さを有する音声の区分（前記区分をＪｉｖｅｗｏｒｌｄ社が「章」と呼ぶ）を短期かつ集中的に視聴する「ダッシュ学習」を中心に構築することがある。「章」の長さを、例えば、１００秒から２５０秒にすることができるが、必要性と要望によっては別の長さの使用も可能である。例えば、ある音声コンテンツがある長さを有する場合（例えば２０分）、音声区分（と前記音声に対応する文字の提示）を１００秒から２５０秒の長さを有する章に分けることが可能である（例えば、コンテンツの長さが２０分ならば、コンテンツがおよそ１０本の「章」に分けられることになる）。

ある実施例では、Ｊｉｖｅｗｏｒｌｄアプリケーションが、各「章」を少なくとも２回繰り返して聞くようにユーザーを仕向ける（２回の視聴は、俗に、「２回以上ペンキを塗る」と言う）。最初の視聴は、教材が新しく、難しい文章と語彙を含むので、補助を得ながら実施することもあり、その際、意識するような注意力がもっと必要となる（例えば、登り坂を自転車で漕ぐことに例えることができる）。この表現は、通常、音声長さの２倍から４倍の時間を必要とするので、２分の「章」は４分から８分までの学習を必要とする。

その後、補助をないままの（又は補助を制限したままの）２回目の視聴を提示することができる。前記２回目の視聴は、新しい教材を自然な速度で聞き、コンテンツの再生を一時停止させ調査することなく、理解を強化していくのに重要な役割を果たすことがある。前記２回目の視聴は、必要とする注意力が大幅に減る（例えば、自転車で坂を下ることに例えることができる）。より制限された補助とは、非表示処理された単語の増加、又は視覚的な指示の減少を含むこともある。

他の実施例では、ユーザーがより多い又はより少ない視聴回数を選択することができる。しかし、インターフェースの実施例は２回の視聴を促すことができる。各章（例えば、音声コンテンツの区分とそれに対応する文字トランスクリプト）を２回聞き、選択した語彙を学習するために語彙の学習フローを勉強してから、ユーザーが音声を一気に聴いても比較的に平易に理解できることもある。

これから、Ｊｉｖｅｗｏｒｌｄアプリケーションの設計と実施例をもっと詳細に説明する。まず図１Ａ及び１Ｂを参照とする。前記図面にＪｉｖｅｗｏｒｌｄアプリケーションのインターフェースを示す実施例が描写される。前記インターフェースは、部分的に非表示処理がなされている視覚的表現及び非表示処理が全くなされていない文字トランスクリプトを示す（例えば、対応する聴覚的表現と共に表示されるコンテンツの提示、又はコンテンツの、単独な視覚的表現としての提示）。

上記で確認できるように、実施例は同時に提示される音声コンテンツに対応する文字トランスクリプトを提示することがあり、文字トランスクリプトの中には、個別の単語が表示されている場合も、隠されている場合（「隠されている」状態を「非表示処理された」状態を言う）もある。更に、これから述べるように、実施例においては、再生中の文（例えば、現在聴覚的表現おいて提示されている文）が矢印１１０により指されることがある（矢印１１０は、特定な色、例えば青緑、で表示されることがある）。

図１Ａは、ほとんどの単語が塗りつぶされたバー（「マスクと言う」）に取り替えられ、非表示処理されている発言を示す。図１Ｂは、同じ発言を、非表示処理が全くなされていない状態で示す。実施例に従い、視覚的表現が動的であることを留意すべきである。よって、聞き手がコンテンツに対応する聴覚的表現（例えば、音声データ）の中で現在聴いている単語（表示処理がなされているかどうかにもかかわらず）がリアルタイムでハイライトされる（ハイライトは例えば青緑色、又は現在表示されている単語に対応するその他の色、で表示される）。つまり、聴覚的表現の中で提示されている単語が非表示処理されているのであれば、非常時処理に使われているマスクが視覚的表現の中でハイライトされることができる一方、聴覚的表現の中で提示されている単語が非表示処理されていないのであれば、単語を示すテクストが視覚的表現の中でハイライトされることができる。

視覚的表現の中に非表示処理された単語を有することは、多くの目的を果たす。とりわけ、非表示処理された単語を使用することで、Ｊｉｖｅｗｏｒｌｄアプリケーションが聞き手が聞きながら、聞き手に提供する補助を仔細に調節することができ、聞き手を常に「コンテンツをギリギリ理解できる領域」に居させることができる。よって、ユーザーにどのくらいの補助を提供したいかにより、文字トランスクリプトの中の非表示処理された単語対非表示理処理されていない単語の割合又はパーセンテージが、変動させられることができる。アプリケーションの設定又はその他の条件により、Ｊｉｖｅｗｏｒｌｄアプリケーションの実施例は視覚的表現の中で特定の語彙にのみ非表示処理を施すことができる（例えば、文字トランスクリプトトのその他単語がハイライトされる）。

非表示処理された単語を使用することは、特に、非表示処理に使われるマスクを非表示処理された単語と同等の幅と同等な位置とすることによって、ユーザーが視覚的に表現された文章に一貫性のある方法で視覚的について行くことも可能とする。この処理は、（非表示処理の設定を変更するたびに）トランスクリプトのレイアウトを再計算する必要性をなくし、図１Ａと１Ｂのように、単語が非表示処理がなされているかどうかにかかわらず、ユーザーの視線が画面上の同じ位置（例えば、（青緑又はその他の色で）ハイライトされた単語又はマスクの位置）に焦点を当て続けることを可能とする。更に、非表示処理に使用されるマスクが非表示される単語とほぼ同じ大きさになっているため、マスクを使用し、その単語の境目を表示させることが可能である（前記単語が視覚的表現中に表示されていないとしても）。単語を表示させることなく単語の境目だけ表示する事は、ユーザーが聞こえてくる音を象徴的な塊に整理するように仕向ける。非母語話者は、しばしば、単語の間の境目についての誤認知を持つことで、単語を誤聴する。単語の境目を表示することにより、Ｊｉｖｅｗｏｒｌｄアプリケーションのユーザーが上記のような混乱に陥る可能性を低減させることができる。

図２Ａ、２Ｂと２Ｃは、Ｊｉｖｅｗｏｒｌｄアプリケーションにおけるその他インターフェースの実施例を示す。前記インターフェースは、Ｊｉｖｅｗｏｒｌｄアプリケーションが聞き手がコンテンツを聞きながら受ける補助の量を仔細に調節するために非表示処理された単語を使用する実施例を示す。前記補助は様々な異なるレベル、例えば、完全に非表示処理されたトランスクリプト、部分的に非表示処理されたトランスクリプトや全く非表示処理されてないトランスクリプトなど、を含む。特には、ある実施例では、Ｊｉｖｅｗｏｒｌｄアプリケーションが、ある単語又はワードグループ（下記には、合わせてワードグループと呼ぶ）のカテゴリーにおける非表示処理をしないことで、聞き手がコンテンツを聞きながら受ける補助の量を制御することができる。コンテンツの視覚的表現の中で、非表示処理をなされないまま（又は、強調）であり得るワードグループの４つの異なるカテゴリーについて考えよう。（その他の例も可能であり、下記言及される）。
語彙（ボキャブラリー）ー出現頻度が比較的に低く、学習者にとって馴染みがない、選択された単語又はフレーズは視覚的表現で非表示処理されないことがある。図２Ｂには出現頻度が比較的に低く、非表示処理されないことがあるフレーズの例「ｉｎｔｅｎｔｏｄｅｓｐｅｒａｄｏ」が表示される（例：色のついた、例えば緑色の下線で強調されることもある）。
誤用又は非標準的な用法ー文法の標準的なルールに従わないコンテンツ、誤用となる単語、誤った文脈に使用される単語（例：話者が意図せずに使用したもの）が視覚的表現の中で非表示処理されないまま表示されることがある。図２Ｂには、例として、「ｉｎｌｅｇａｌ」が非表示処理されないまま表示されている（例：オレンジの様な色で強調される。
聞き取りづらい単語ー有用な語彙ではないとしても、聴覚的な表現の中で早口で発話される単語、音脱落を伴う単語等、非母語話者にとって理解しにくいワードグループ。「聞き取りづらい単語」は視覚的表現で非表示処理されないことがある。図２Ｂで非表示処理されていない
は実施例のインターフェースで「聞き取りづらい単語」を表現する例である（例：グレー色の点線からなる下線で強調されている）。
注記ー視覚的表現の中にあり、学習者に馴染みのない文化的、歴史的、言語学的意味合いを持つ文中の単語、フレーズや固有名詞で、編集者がメモを追加できる

上記のワードグループ、又はその他非表示処理されていない部分はメモ又は説明文を必要とすることがある。よって、Ｊｉｖｅｗｏｒｌｄアプリケーションが提示するインターフェースは聴覚的表現と視覚的表現と同期される説明用メモを提供することがある．図２Ｂは、話者が、聴覚的表現の中に「ｉｎｌｅｇａｌ」の代わりに使用することができた（例：標準的なスペイン語を使っていた場合）別の表現（例：ｉｌｅｇａｌの様な標準的なスペイン語単語）を説明する、「スライドアップパネルと呼ばれる」、インターフェースの下の方からポップアップウインドウとして表示されるパネル２２０を示す（使用例：非表示処理されていない且つ誤りである「ｉｎｌｅｇａｌ」が聴覚的表現の中で使用される際、「ｉｎｌｅｇａｌ」と言う単語がユーザー視覚表現の中でユーザーに選択される際、視覚的表現が表示される際、等）。

図２Ｃで表示されるインターフェースの実施例は、「語彙」となる単語が語彙を復習するための一覧表に追加される工程を管理する操作の例と共に、インターフェースの視覚的表現で非表示処理されていない「語彙」となる単語（例として、「ｉｎｔｅｎｔｏｄｅｓｐｅｒａｄｏ」）の定義を示すスライドアップパネル２２２を示す。いずれの場合でも、非表示処理されていない（例として、ハイライトされた）ワードグループ（例として、「語彙」となる単語、「聞き取りづらい単語」、「注記」、「誤用」、等を視覚的表現の中から、タップすること（例：タッチスクリーンを要する端末を使用する）又はトランスクリプトの中でその他選択動作（例：マウスクリックやその他入力装置を使用する）を使用して選択することで、パネルを表示させることができる。

言語学習システムの実施例は、ある複数の規則に沿い、前記ワードグループの一部又は全部の非表示処理を自動的に解除できる。図２Ａは、全ての単語が非表示処理されているが、最初の非表示処理された単語が、前記単語が学習対象のワードグループ（例：「語彙」となる単語）であることを示す色のある（例：緑色）下線が付いている。前記ワードグループをタップ（又は、コンピューティングデバイスを使用して、その他の方法によって選択するー下記には、総合名称として「タップする」又は「選択する」と呼ぶが、一般性が損なわれない）すると、画面上では前記ワードグループだけの非表示処理が解除できる。もう一度タップすると、インターフェースには前記単語又はワードグループのための定義パネル（例：図２Ｃのパネル）が表示される。

上記で記述されたように、Ｊｉｖｅｗｏｒｌｄシステムの実施例の少なくとも２つの目標は、まず、ユーザーに提供される補助を調整し、ユーザーを継続的に「コンテンツをギリギリ理解できる領域」に居続けてもらうこと、次に、使いやすいインターフェースを提供することである。場合によっては、これらの二つの目標を両立させることが難しい。一つの解決策手としては、ある図面で描写されているようにインターフェースに簡単な有効・無効スイッチを設ける（例：図１Ａのアシスタントスイッチ１１２）ことであり、ハイライト（例えば、使用中に黄色く表示される）、プレイヤーの画面の左下のボタンがその一つの例である。

しかし、その他の実施例はユーザーが補助機能を有効にした場合の補助の種類をもっと細かく調節する方法をユーザーに提供する。図３Ａ、３Ｂ、又は３ＣはＪｉｖｅｗｏｒｌｄアプリケーションのその他インターフェースの実施例を示す。図面３は、例えば、ユーザーが、全てのテキストを非表示処理されないまま表示することを含め、どのようなワードグループが自動的に非表示処理されないまま表示されるのかを選択することで、提供される補助の種類を調節するための画面インターフェースの設定を示す。「スライド」ボタン３０２を使用することで、ユーザーは、全ての「テキスト」、「ヒント」、「聞き取りづらい単語」、「語彙」又は誤用がハイライト又は表示されるべきかどうかを選択し得る。ユーザーは、設定画面のインターフェースを使用し、再生速度（例として、元々のコンテンツの速度に対する聴覚表現の相対再生速度）を設定することもできる。前記設定は、例えば、ユーザーが音声コンテンツに付いていける様に、音声をユーザーの意図に沿い、引き伸ばす機能（図面の例では、再生速度が０．７ｘ、つまり元の速度の７０％として示されている）として備えることが可能である。

実施例によるインターフェースは、ユーザーに予め設定された補助量から選択させる一つの「スライダー」を使用することによって、簡略化され得る。ユーザーは、詳細に制御する機能よりも、簡略化されたインターフェースを好むことがある。実施例は、「語彙」や「聞き取りづらい単語」の中での異なるレベルへの区分けを例えば難易度毎に表示させることを可能とすることがあり、学習者の対象言語における能力水準に沿い、表示する区分けされた「聞き取りづらい単語」の表示を増やす又は減らすための設定を提供することがある。補助機能が無効になっていても、インターフェースは、図面で示されている通り、アプリケーションの利用状況次第「セクション・ヒント」、「語彙」や「メモ」を表示させることを可能とすることができる（例：タッチスクリーン端末をタップすることで前記機能を表示させる）。

図３Ｂ及び３Ｃの「補助」ボタン３１２（画面の左下）は、ユーザーが、補助が有効であるか（例：黄色等の色でハイライトされている場合）、無効であるか（例：ボタンが白色等の別の色でハイライトされている場合）をどの様に制御することができるかを示す。補助が無効になるとテキストの視覚表現の中のあらゆる表示がデフォルト設定として非表示処理されるが、ユーザーは個別のワードグループ（例として、コンテンツの視覚的表現の中で表示される各個別のマスク）をタップすることで前記ワードグループの非表示処理を解除できる。補助が有効になると、設定メニュー（例として、図３Ａで表示されるメニュー）で選択されている補助のカテゴリーのみが有効になる。

ワードグループの非表示処理を自動的に解除するための明確な操方法以外には、システムは必要な補助量を特定するための方法を有することがある。例えば、ユーザーが全てのテキストを非表示処理された状態で使用を開始した後に、前記ユーザーが頻繁に「聞き取りづらい単語」をタップすれば、アプリケーションがその動作を、前記ユーザー用に「聞き取りづらい単語」の初期設定を非表示処理しない設定に切り替える指示として捉えることができる。よって、システムには、ある閾値又は期間があり、ユーザーがある期間中に前記閾値を超えるような頻度である特定のワードグループに関連した操作をした場合、前記ユーザー向けに前記ワードグループが非表示処理されなくなることがある。前記閾値又は期間は、例えば、ワードグループの種類、ユーザー、提供されているコンテンツ、又はその他条件によって異なり得る。

特定の実施例においては、Ｊｉｖｅｗｏｒｌｄアプリケーションがコンテキストメニュー（使用状況により、項目が入れ替わるメニュー）を使用することがある。例えば、ユーザーに単語の非表示処理を解除する操作を提供する別のやり方としては、コンテンツの聴覚的表現を巻き戻す際に、他の選択肢をメニュー追加する方法がある。難易度の高いリスニング用教材を使用する際、ユーザーが次のコンテンツに移行する前に、短いセクションを巻き戻し、もう一度聞くことが良くある。Ｊｉｖｅｗｏｒｌｄは、前記操作を簡単且つ有用にする。ユーザーが、提供されているコンテンツを巻き戻す場合、提供されている音声コンテンツにも、前記音声コンテンツに対応するコンテンツの視覚的表現にも、巻き戻し操作が反映される。具体的には、視覚的表現の中にハイライトされている単語が、音声コンテンツの中で音声コンテンツが巻き戻された位置（例：音声コンテンツの中で現在提供されているワード又はワードグループの位置）に対応する位置に位置される様、視覚的表現を戻すことがある。

しかし、巻き戻す操作は、現在聞いている位置を戻すだけではない（例：音声コンテンツと視覚的表現をある一定の秒数で巻き戻す）。ユーザーが巻き戻すとき、それは、現在提供されているコンテンツのセクションを理解するのに更なる補助を必要としている強い証拠である。補助を必要としている理由は、特定の単語を理解する必要がある、文型全体が理解できなかった、使用された単語に馴染みがない、話し方よって混乱が起きた、その他の理由もあり得る。よって、Ｊｉｖｅｗｏｒｌｄアプリケーションが使用するインターフェースの実施例は、使用状況により変更することが可能である。つまり、巻き戻しを要求するユーザーによる操作を利用し、追加情報を提供すること、及び視覚的表現にユーザー操作を可能とする要素（例：ワードグループの一つ以上の種類に関する操作オプション）を追加で提供することが可能である。

図４Ａ，４Ｂ，４Ｃそして４ＤはＪｉｖｅｗｏｒｌｄアプリケーションの、例えばトランスクリプト（例として音声）の一部を巻き戻す際に使用される、使用状況ベースのインターフェースを示す。図４Ａは画面の下部の中心に大きな巻き戻しボタン４０２を示す。巻き戻しボタン４０２をタップ又は長押しすると、オーディオプレイヤーによる音声コンテンツの表現そしてトランスクリプトの視覚的表現の中の現在位置（例として、ハイライトされた位置）が巻き戻されることになる（例としてはフレーズ毎、又は単語毎）。巻き戻しボタン４０２をタップ又は長押しすると、アプリケーションは「巻き戻し状態」に入る（例：ユーザーが巻き戻し操作を開始した時点までコンテンツをもう一度再生しない限り、前記状態が維持される）。アプリケーションが巻き戻し状態だと、インターフェースの実施例には図４Ｂに示されている追加オプションメニュー４１０が巻き戻しボタンの周りに弧を描く様に表示される。

ユーザーが音声を巻き戻す際、通常はその操作がユーザーが音声を理解することができなくて、直前のフレーズをもう一回聞き直したいことを意味するのでメニュー４１０と前記オプションが役立つ。この様な状況はユーザーが望むのであれば、ユーザーに追加補助を提供する状況として最適である（理解不足と思われる状況を改善するため）。

オプションボタン４２０のうちの１つ（例：黒色の弧の上にある３つのボタンのうちの最も左側に位置するボタン）がすべてのテキストの非表示処理を解除することができる。図４Ｃはユーザーがタップしてから、前記ボタン４２０がハイライトされた状態（例：黄色くハイライトされる）を示し、その上部にある視覚的表現の非表示処理が全て解除された状態にある。よって、対象のセクションにおいては、前記「テキストを表示」オプションボタン４２０はコンテンツの視覚的表現を完全に非表示処理されていないテキストに切り替える。

アプリケーションが巻き戻し状態にある間に表示されるその他のオプションとしては、ユーザーが巻き戻し過ぎた場合、巻き戻しタップのうちの一回を取り消すことができるフォワードオプションボタン４２２、及び減速した速度でコンテンツを聞く機能を示すカタツムリアイコン４２４がある。減速した速度でコンテンツを聞くオプションが補助モードで既に有効になっている機能に、音声を時間的を引き伸ばす処理を追加させることができる（例：上記で言及される様に、補助メニューで設定を決定する）。

又、図４Ａと４Ｂは、巻き戻しボタン４０２（画面の下の部分の中心に位置される大きいボタン）が押される又は長押しされる前、及び押される又は長押しされた後のＪｉｖｅｗｏｒｌｄアプリケーションのインターフェースにおける実施例を示す。巻き戻しボタンがタップされる度に、カーソル（カーソルは、例として、視覚的表現におけるハイライトされた単語又はマスクとして表示される）を文の始まり又はより長い文の一節の始まり等、意味的な観点から論理の適った位置まで移動させる。図４Ｂで表示される例において、インターフェースにおけるコンテンツの表現は、図４Ａで表示されるインターフェースの例に比較して、数ステップ戻されている。

ある実施例では、Ｊｉｖｅｗｏｒｌｄアプリケーションは巻き戻しボタン４０２を押す前に提供されていたコンテンツの位置を保存する。前記位置は、Ｊｉｖｅｗｏｒｌｄアプリケーションで、「最も進んだ再生位置」マーカー（又は変数）でトラキングすることができる。コンテンツの視覚的表現の中にある巻き戻しボタン４０２の上に位置される弧型メニュー４１０において、およびカーソルの位置より進んだ位置にあるスクリプトの視覚的処理（例として、視覚的表現において、青緑色でハイライトされた単語又はマスク）においてユーザーに提供される追加アクションの表示により、アプリケーションが巻き戻しモードに入っていることをユーザーに気付かせることができる。カーソルが「最も進んだ再生位置」に到達した際（例えば、ハイライトされた単語又はマスクの位置が、巻き戻しボタン４０２が押される前に提供されていた、且つ、「最も進んだ再生位置」変数として保存されていた位置と同様な位置に到達した際）、視覚的インターフィスは再び図４Ａで表示されている様子を呈することになる（例：メニュー４１０が消滅し、Ｊｉｖｅｗｏｒｌｄアプリケーションの状態が巻き戻し状態でなくなる）。ユーザーが、いつでも弧型メニュー４０の右側にある下向き矢印アイコン４２６を使用することで、プレイヤーを最も進んだ再生位置（例：最も進んだ再生位置マーカー）まで強制的に移動させることができる。

コンテンツの表現（例として、視覚的表現も聴覚的表現も）の中で後方に（又は前方に）瞬時に移動するもう一つの方法は図４Ｄで示される。この場合は、視覚的表現の左側の縁にボタン４２８があり、前記ボタンはコンテンツの提示を前記ボタンが示す文（又はその他の部分）の始まりまで移動させることになる。ボタン４２８を表示させる方法としては、プレイヤーを意図的に一時停止すること（例：インターフェースの一時停止ボタンを押すこと）、又はコンテンツを視覚的に表現するトランスクリプトの中心領域を右方向にスワイプする動作（又はその他動作）をすることが可能である。これは、視覚的表現の中のトランスクリプトを視覚的に提示し、トランススクリプトに非表示処理を施すこと（例：コンテンツを示す視覚的トランスクリプトの中にある１つ以上の単語又は単語グループを隠すようにマスクを置くこと）が有用な方法であることを示すもう一つの例である。つまり、視覚的に表現されるトランスクリプトを用意することで、表示されたトランススクリプトの一部までスクロールし、コンテンツの中をナビゲーションする方法がユーザーに提供されることになる。視覚的に表現されるトランスクリプトと共に提示することができるスピーカーラベル（例：図４Ｄのスピーカーラベルが「Ａｕｇｕｓｔｉｎａ」が表示されている）及びヒント（例：ヒントが「Ｔｈｅｕｎｅｘｐｅｃｔｅｄｃｏｎｓｅｑｕｅｎｃｅｏｆｔｈｅｒａｄｉｏｓｈｏｗ」が表示されている）は、手動でスクロールするユーザーに追加背景情報を提供するが、オーディオプレイヤーやビデオプレイヤーに通常施される横向きーコントロールバーを使用する場合、前記情報を得ることができない。

Ｊｉｖｅｗｏｒｌｄアプリケーション及びそれに関連するその他インターフェースの実施例は理解語彙の習得を促すことによって、対象言語の理解力を向上させることができる。実施例は、理解語彙に焦点を当て、上で説明された聞き取り練習のために採用されるプロセスと技術を補助する様、主に音声の認知に基づく語彙レビュープロセスを使用することができる。図５Ａには、Ｊｉｖｅｗｏｒｌｄアプリケーションが使用できるインターフェースを示し、前記インターフェースでは、ユーザーが個別な語彙アイテムを語彙リストに追加すること、又は語彙リストから取り消すことを選択できる（語彙リストは、インターフェースの下部にあるパネル５２０表示され、スライドアップパネルかそれと同様な表示として表示されることがある）。

図５Ｂ及び５Ｃには、ユーザーのために保持することができる語彙リストの実施例で、ユーザーがユーザーのために保持される語彙リストの語彙アイテムを閲覧すること又は削除すること（例：５２２）ができる。ユーザーが、このように、各語彙アイテムに出会った文脈と同様な文脈で語彙リストを復習することができる（例：ユーザーが語彙アイテムに最初に出会った元コンテンツのセクションが参照される）。

図６Ａ、６Ｂと６Ｃは、視覚的インターフェースの実施例を表示し、Ｊｉｖｅｗｏｒｌｄアプリケーションの実施例の中で、語彙リストがどのように機能することができるかを描写する。例：ユーザーがある物語を学習する際、図５Ａ、５Ｂ、５Ｃで描写されるような方法で語彙リストを構築したと仮定する。ユーザーが「語彙復習」モードを選択すると、図６Ａ、６Ｂ、及び６Ｃのインターフェースを表示させることができる。ユーザーは、語彙アイテムが物語の中で出現していた同じ順番で、語彙アイテムを一つずつ確認していくことができる。各語彙アイテムに対し、ユーザーに、前記語彙アイテムが元々出現していた文が提示されることがある。ユーザーの関心は、先ず発話された単語を認知すること（例：図６Ａ及び６Ｂで二重下線のある非常時処理された単語）、そして前記単語の意味を理解することである。そこで、インターフェースで提示される例文が、元々出現されていた章（例：元々の文脈）からある程度分離された状態になったため、インターフェースの実施例は、ユーザーに追加の背景情報を提供するためには、関連するチャプタータイトル、セクション・ヒント、又は章のコンテンツの概要を提供することができる。

図６Ｃには、ユーザーが、語彙アイテムのトランスクリプトと定義を表示させ、自己採点をし、前記語彙アイテムを更なる復習のために保持すること、または、学習済みアイテムとしてリストから外すことを可能とするインターフェースの実施例を示す。前記例では、語彙アイテムが
（スペイン語）で、英語の意味は「ｉｔｗｏｒｋｅｄ」（ちゃんと機能した、ちゃんとできた）である。語彙を復習するこの場面で、補助モードを設けることもできる。補助モードは、ユーザーが、語彙アイテム以外の単語の非表示処理を解除する操作を可能とすることがある。

図６Ｃで描写されるように、ユーザーは語彙アイテムが分かった場合「Ｇｏｔｉｔ」を選択し、又は分からなかった場合「Ｄｉｄｎ’ｔｇｅｔｉｔ」を選択してから、語彙リストの次のアイテムに進むことができる。

インターフェースのその他の実施例は、Ｊｉｖｅｗｏｒｌｄアプリケーションの実施例を使用し、聴解力を身につけることを補助するために使用されることがある。前記インターフェースの実施例の一つは、「視覚的フォーカスマーク」と呼ぶことができる。聞き取りは、リアルタイムで行われるので、「今」という概念は重要性を持つ。注意力を順番で払うべきだという原理から、ユーザーが、あるコンテンツを読みながら、別のコンテンツを聞いてはいけない原則を導くことができるので、ユーザーはある特定な時刻に一つのコンテンツにだけ注意力を払わなければならない。つまり、コンテンツの視覚的表現とコンテンツ聴覚的表現とは、実質的に同期化されるべきであり、同期化された状態を維持されるべきである。

コンテンツの視覚的表現の中で、「視覚的フォーカスマーク」はコントラストのある表示で提供することができる。上記で言及されたように、ユーザーが現在聴覚的表現されている単語（又は前記単語に対応する非表示処理用マスク）を上記の図同様、ハイライトされた状態（例：青緑色）で見ることができる。つまり、視覚的に表現されているコンテンツのトランスクリプトの中でハイライトされている単語（又はマスク）は、聴覚的表現の中で同時に表現されている単語と同期化される。「今」提示されているコンテンツのヒエラルキーを拡張していくと、実施例には、図１Ａ及び１Ｂで示されるよう、現在の文を指定する、左側の縁にある矢印１１０（例：青緑色の様な特定な色で表示）を表示させることができる上、現在のセクションに対応するセクションヒントを特定な色を持つ背景（例：青緑又はその他色）と共に表示させることができる。

会話の課題が変化又は展開していく過程で、上記のような補助が施されたとしても、非母語話者にとっては理解できなくなりがちである。以前言及した例えだが、乗っている波から落ちることになる。よって、Ｊｉｖｅｗｏｒｌｄシステムが提供するインターフェースの実施例は、ユーザーが音声コンテンツについていき、どのようなコンテンツが聞こえてくるか分かるように、ユーザーに道標（ヒント、又はセクション・ヒントと呼ばれる）を提供する。これは聞き取り補助の一種である。

図７は、現在の文のハイライトされた（例：青緑色で、又はその他色で）翻訳文（例：英語に翻訳された文、又はその他、ユーザーの母語に翻訳された文）を表示させる翻訳パネル（例：パネルが視覚的ディスプレーの右側からスライドしてくるように表示される）の実施例を示す。図８Ａ及び８Ｂは、インターフェースの一つの実施例の複数の段階を描写する「フィルムストリップ」を示し、Ｊｉｖｅｗｏｒｌｄアプリケーションの実施例が視覚的インターフェースでどのようにある一つのセクションからある別のセクションに移行できるかを説明するものである。インターフェースは、（図８Ａの左端のフレーム８０２で示されているように）最初に「ａｑｕｉｃｋｒｅｃａｐ」と記載されている現在のセクション・ヒントを表示させることができ、背景色（例：青緑色）はセクション・ヒントがユーザーに現在提供されている音声に対応するものだということを示す。

図８Ａの２番目のフレームでは、コンテンツの提示が、トランスクリプトにある薄い実線８１０（例：ある色、例えば、青緑色になっている）によって表示される、次のセクションの始まりに到達している。次のフレームである（図８Ａの）フレーム８０６、及び（図８Ｂの）８０８と８１２は、ヒント８１４が表示され、学習のフォーカスとして画面で表示されつつ、ユーザーにヒントを読む時間を与えるため、音声が一時停止させる：ヒント８１４のテキストが長ければ長いほど、コンテンツの聴覚的表現を長く一時停止させることができる。新しく表示されるヒントの右側に表示される再生ボタン８１８にはリングが備えられ、一時的される間に、リング上の線が、時計回り方向に、ある色（例として黒）に塗り潰されていき、その可動表示は一時停止されている時間が視覚的に表示される。ユーザーは、いつでも再生ボタン８１８を押すことにより、一時停止処理を中断させることができる。ある実施例では、ヒントが聴覚的に表現されることがあり、前記表現は人間の発話されること、又自動的なテキスト読み上げ機能に発話されることがある。

特定の実施例においては、視覚的に表現されているトランスクリプトがスクロールアップされても、インターフェースは、ヒント８１４が聴覚的表現の中で現在提示されているコンテンツに対応するものである限り、ヒント８１４を画面の上部で継続的に表示させる（例：「固定させる」、「ピンさせる」ことができる（図８Ａの最初のフレーム８０２で示されているようを参照）。ある実施例では、コンテンツの聴覚的表現が対応する位置に到達すると自動的にヒント８１４が表示されるが、その他の実施例では、「補助プリセット」メニューにあるオプション（例：図３Ａで示されているように）を使用することでインターフェースの中でヒントがいつ、どのように表示されるかをユーザーが決定することができる。例えば、ユーザーがヒントのテキストを表示させる前に、ヒントを非表示のままで保持させることを選択ことができる。この場合は、図９のように、ヒントを表示させるための「ヒントを表示」と記載された表示用ボタンをインターフェースに盛り込むことができる（例：前記ボタンはヒントが表示される位置と同等な位置で表示される）。一時停止処理の指定秒数は、ユーザーがヒントを表示する操作（例：「ヒントを表示」ボタンの使用）をした時点で数えられ始める。

他の実施例では、ユーザーにその段階的な補助を与えることができる。例えば、図１０Ａ、１０Ｂ、１０Ｃ、及び１０Ｄは視覚的インターフェースにおけるインラインテキスト上に複数の補助が実装されるインターフェースの実施例である。補助の種類は、「非標準的な使用法」、「語彙」「聞き取りづらい単語」や「スピーカー情報」を含む。

このような種類のインターフェースの実施例においては、視覚的に提示されるトランスクリプトの中にある単語又はワードグループの一部には、前記単語又はワードグループをタッチ又はクリックし、有効な関連情報を表示させることができることを示すための実線からなる下線を有し得る。例えば、図１０Ａのインターフェースには、ある単語「ｉｎｌｅｇａｌ」１００２を区別できるような色（例：オレンジ又はその他色）で表示し、コンテンツの聴覚的表現の中にある話者による誤用を指定している。この場合には、（例：スライドアップパネル１００４で示されている通り）話者が「ｉｌｅｇａｌ」というスペイン語の単語を使うつもりだった。

ある特定の色（例：青）で表示される話者ラベル
を示す図１０Ｂのインターフェースは、話者の物語の中の役割やその他重要関連情報（例：地元の訛りと特定な話し方を区別するのに役立つ話者の出身地）を説明する話者に関する短い紹介文を示すために選択されており、前記紹介文は聞き手がコンテンツの聴覚的表現で登場する複数の人物の取り違えに備えたものである。ユーザーが話者ラベルに対する操作を行ったことで、インターフェースの下部にある紹介文パネル１００８で話者の紹介文が表示されることがある。

図１０Ｃのインターフェイスは二つの単語１０１２を示しており、（例：「ｉｎｔｅｎｔｄｅｓｅｓｐｅｒａｄｏ」が区別されやすい色（例：緑色又はその他色）で表示されている）、ユーザーにとって馴染みのない単語である可能性を示している。区別されたワードグループ１０１２に対し何らかの操作が行われたことにより、前記語彙に関する情報はインターフェースの下部にある語彙パネル１０１４で表示されることがある。Ｊｉｖｅｗｏｒｌｄシステムの一つの目的はユーザーの理解語彙を増やすことであるため、インターフェースは（例：パネル１０１４で）、ボタン１０１６の様に、語彙アイテムを語彙復習リストに追加する方法を提供することがある。更に、その語彙となる単語（又はその他ワードグループ）が非表示処理されていても、前記補助を提供することが可能である。図１０Ｄは、ユーザーが、一回クリックすることで非表示処理された語彙の非表示処理が解除され、もう一回クリックするとスライドアップパネルの中で定義が表示される仕組みで非表示処理された語彙を表示するインターフェースの実施例を示す。

その他、「連続的集中力促進機能」のアプローチに沿い、Ｊｉｖｅｗｏｒｌｄシステムのインターフェースは、前記追加情報（例：パネル１００４、１００８及び１０１４等で示される情報）を表示させる間、音声を一時停止させることができ、ユーザーが主要な表現である音声コンテンツを聞き損ねることを心配せずに追加情報を読む期間を与える。

図１０Ａ、１０Ｂ及び１０Ｃは、別の種類のインラインテキスト上にある補助を示し、前記補助は
の下にある点線からなる下線で表示されている（また、前記補助を区別するための方法としては、特定な色でハイライトすることや別の種類の下線を使用することも可能である）。この区別するための方法を「聞き取りづらい単語」を指摘するものとして使用することができ、又はインターフェースの機能により、前記単語を、視覚的に表現されるトランスクリプトにおける前記単語以外の単語から独立した形で非表示処理を実施することが可能である（例えば、図３Ａで表示されるような「補助プリセット」メニューのオプションを使用することにより「聞き取りづらい単語」の独立したプリセットが可能である）。「聞き取りづらい単語」のワードグループカテゴリーは、非母語話者にとって（場合によっては母語話者にとっても）聞き取りづらい話し方で発話されるワードグループである。例えば、もごもご発話された単語、強い訛りで発話された単語、又は、音声の中で特に高い速度で発話された単語が含まれる。よって、Ｊｉｖｅｗｏｒｌｄシステムは、「語彙」、「メモ」、「聞き取りづらい単語」、又はその他はワードグループのデフォルト処理として非表示処理を実施すること、又は非表示処理を実施しないことをユーザーに選択させることができる（例：前記選択は前記補助プレセットメニューの設定でなされる）。その他の実施例では、「聞き取りづらい単語」には言語学的情報を説明する付随文がついており、前記付随文を（点線の代わりに）実線で示すことができ、前記実線がタップされれば、前記付随文が１００４、１００８、１０１４の様なスライドアップパネルで表示されることがある。

Ｊｉｖｅｗｏｒｌｄシステムの実施例は、対象言語の復習用、又はトレーニング用の補助を提供することができる。上記の記載通り、重複はトレーニングの重要な要素である。脳はパターンを認知することで学習するので、学習させるには時間が経過しないうちに同じ又は類似の信号を与える必要がある。最新のフラッシュカードプログラムの多くは、間隔反復システム（ＳＲＳ）に基づかれ、脳がある知識を忘れる直前に前記知識を思い起こさせる方法を採用している。

間隔反復システムは、その他のコンテンツと関連づけられていないデーター（例えば、語彙リスト）に関して役立つが、もっと複雑なコンテンツから学習する際、例えば、１００秒から２５０秒までの長さを持つ音声の場合、実施例はもっと効果的な方法を採用することができる：つまり、詳細の学習をするためには一回聞いた後、ユーザーがコンテンツをまだ鮮明に覚えている間に、その学習効果を強化するため同じコンテンツをもう一回聞く方法がある。

アプリケーションの設計上、ユーザーが、まだ完全に習得していない言語を最初に聞く際多少苦労することになるが、同じコンテンツをもう一度聞くと母語を聞く感覚に近づけることができる。前記聞き方は、自転車で坂道を登った後に、ペダルを漕げずに下っていくことに例えることができる楽しい体験を提供するだけではなく、脳は、意味がリアルタイム且つ自然に合体してくる、ある異なるモード（流暢モード）で聞くことになる。

図１１Ａ及び１１Ｂは復習プロセスの一部として利用できる視覚的インターフェースの実施例を示す。前記の場合は、エピソードと呼ぶことができる（例：ある特定の長さを超える）音声コンテンツは必要な長さを持つ複数の「章」に切り分けられ、前記「章」は複数のチャプターカードを表示することができる（例：横向きの）「カードカルーセル」で表示される。インターフェースで表示されてる例では、５番目の章のためのカード１１０２が表示されている。Ｊｉｖｅｗｏｒｌｄシステムの実施例では、ユーザーが表示用ボタン（例えば、メニュー１１１０にある「聞く」又は「もう一度聞く」オプション）を押すと、カードが画面全体を占める大きさに拡大し、上記の図で示されているように、カードは章のコンテンツに対応する視覚的に表現されるトランスクリプトを含む、前記章を再生するプレイヤーになる。章の操作・利用が終了となった場合（例：トランスクリプトの音声再生が終了となった場合）、プレイヤーが度縮小し、もう一度カードになる。

「聞く→もう一度聞く→完了」のメニュを提示する、カード上部（例：インターフェースにある１１１０の部分）にあるパンクズリストは、ユーザーがコンテンツを聞く度に、ユーザーを導いていく役割を果たす。初期設定では、ユーザーが「聞く」手順でコンテンツを最初に視聴する際、プレイヤーの補助機能が有効になる（例：補助ボタンが図３Ｃのように、有効になる）が、ユーザーが「もう一度聞く」手順でコンテンツを再度視聴する際、プレイヤーの補助機能が無効になる。図１１Ａにあるカード１１０２の下部にあるボタン１１２０（例：青緑色）は、表示されているチャプターカルセールカードがまだ視聴中の章に対応するカードであることを示すが、ユーザーはカード１１０２の右側に次のチャプターカードカルーセルの縁が見られている状態且つ薄いグレー色で表示されていることも確認できる。ユーザーは次の章に進むように要求することができるが（操作例：画面をスワイプすること又はその他の動作）、現在表示されているカード１１０２で「聞く」および「もう一度聞く」の両方の視聴をする様に促される。

図１１Ｂで示されるように、両方の視聴が終了になった場合、インターフェースが次の章に対応するカード（例：右側のカード）を「有効」にする（例：カードをグレー色で表示させるのをやめること、ユーザーがそのカードに対して操作ができる様になること）が、ユーザーが３回目（又は４回目等）の視聴に備え、カード１１０２の表示が持続される。このインターフェイスの実施例は、Ｊｉｖｅｗｏｒｌｄシステムが、学習の柔軟性を保ちつつ、ユーザーの記憶力と進歩を向上させるための学習の流れ及び学習の習慣へと導くことができる例である。

図面１１Ｃは「チャプターサマリー」と呼ばれる別のインターフェース実施例を示すもので、前記「チャプターサマリー」は概念上チャプターカード１１０２の「裏面」で表示させることができる。ユーザーがカードに対する操作を行うことで、前記チャプターサマリーを有効にさせ、インターフェースの中のカードが「ひっくり返り」、チャプターサマリー１１０４が表示されることがある。チャプターサマリー１１０４が、編集者が対応するチャプターカード１１０２のコンテンツをまとめ直したもので、初期設定では、ユーザーが、チャプターカード１１０２に対応するチャプターを初めて最後まで視聴した後に初めて有効になることがある。チャプターサマリー１１０４の表示は、ユーザーに理解度を確認する機会を提供して、聞き取れなかったコンテンツや誤解したコンテンツを確認することができるので、安全網の役割を果たす。その他の実施例では、チャプターサマリの代わりに、ユーザーがチャプターのコンテンツに対する理解度を確かめるための複数の質問を確認することができる。

下記の文章は、Ｊｉｖｅｗｏｒｌｄシステムを実装するための実施例についての更なる詳細情報を述べる。図１２Ａ、１２Ｂ、１２Ｃには、Ｊｉｖｅｗｏｒｌｄシステムの実装例の一部の実施例の描写が表示されている。図１２Ａの通り、一つの実施例は、Ｊｉｖｅｗｏｒｌｄシステムがアプリケーション１２０４（クライアント、クライアントアプリケーション、Ｊｉｖｅｗｏｒｌｄアプリケーションとも呼ばれる）を実行する、一つ以上のクライアントデバイス１２０２を含み、Ｊｉｖｅｗｏｒｌｄサーバー１２０６と通信可能に連結されるが、他の実施例では、Ｊｉｖｅｗｏｒｌｄアプリケーション１２０４はクライアントデバイス１２０２で単独なシステムとして実行されることがある。前記実施例では、全てのデータがアプリケーション１２０４にプレコンパイルすることができる。

Ｊｉｖｅｗｏｒｌｄサーバー１２０６はネットワーク１２１０（インターネット、ある個別のインターネット、イントラネット、ＷＡＮ、ＬＡＮ、無線又はセルラーネットワーク、又はその他の種類のコミュニケーションネットワークも可能）を通し、単数又は複数のコンテンツ源１２０８から音声コンテンツ１２１２にアクセルする又はその他方法で入手することができる。前記音声コンテンツ１２１２はＪｉｖｅｗｏｒｌｄサーバー１２０６で前記音声コンテンツを含む非一時的なコンピュータ読み取り可能な媒体から手動でアクセスすることも可能である。音声コンテンツ１２１（例：ｍｐ３又は類似のファイル形式）Ｊｉｖｅｗｏｒｌｄサーバー１２０６にあるデータストア１２５４、及び１２０６及びにある、音声コンテンツ１２１２用に製造された、前記音声ファイルに対応する構造化されたデータファイル１２１４に保存することができる。構造化されたデータファイル１２１４にはテキスト、タイミング情報やワードグループ、及び対応する音声コンテンツ１２１２で発話される各単語のためのタイムスタンプ又は持続時間が含まれる。その上、（タイムスタンプ又持続時間と関連づけた）各単語が、該当する音声ファイル１２１２の中ある前記単語が発話されるタイミングに相当する位置にインデックス処理される（例：タイムスタンプを使用しての整理）。構造化されたデータファイル１２１４には、例えば、拡張可能なマーク付け言語（ＸＭＬ）又はＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ（ＪＳＯＮ））ファイルを使用することが可能で、前記ファイルがトランスクリプト及びタイミングファイルと呼ぶことができる。

図１２Ｂは、トランスクリプト及びタイミングファイル１２１４の作成に使用できる二つの入力の実施例を描写する。タイムスタンプデータ１２９８は、対応する音声ファイル１２１２の区分又は時間のシーケンスの開始時刻と終了時刻を指定することができる。区分とは、ある一定の速度で発話される音声ファイル１２１２の中にある短い音声コンテンツ（通常は２秒間から４秒間）からなることがある。区分は、センテンス全体からなることもあるが、場合によっては、センテンスの一部からなることがあり、時には単語一つとからなる。各区分の開始時刻と終了時刻を特定することにより、Ｊｉｖｅｗｏｒｌｄシステムはユーザーが単語を一個一個聞くタイミングと同時に、前記単語に対応するトランスクリプトを表示させることができる。上記の処理を実行するには、Ｊｉｖｅｗｏｒｌｄシステムは区分の開始時刻と終了時刻を特定し、各単語を区分の中のその他単語と比較しながら単語の長さ（文字、母音、音節）を解析することで、各単語の開始時刻と終了時刻のタイムスタンプを推測することができる。解析結果により、各単語にウエイトを付与することが可能である（例：線形補間法又は類似の方法を使用）。各単語のタイムスタンプはタイムスタンプデータ１２９８に保存される。

タイムスタンプデータ１２９８は、音声ソースファイルの中でタイムシーケンス又は区分に関連される名称付けのレーベルを作成することを可能とする、複数ある音声編集ソフト（例えば、Ａｕｄａｃｉｔｙ又はＨｉｎｄｅｎｂｕｒｇＰｒｏ）の書き出しオプションであることがある。タイムスタンプ処理は、ＧｏｏｇｌｅＣｌｏｕｄＳｐｅｅｃｈ－ｔｏ－Ｔｅｘｔサービスのような音声認識サービス（又はその他アルゴリズムやサービス）によって実行されることも可能である。前記編集ツールやサービスの出力形式は、記録された音声データにあるセグメント等に属するラベル名称及びミリ秒で刻まれたセグメント等の開始時刻と終了時刻をリストにまとめた通常のテキストファイル（通常は、データがコンマ又はタブで区切られる）であることがある。

タイムスタンプデータ１２９８（各区分についてデータが含まれる）は学習者に又別の種類の補助を提供するための使用されることがある（例えば、タイムスタンプデータを増やすこと、または改変することによって）。Ｊｉｖｅｗｏｒｌｄシステムでは前記補助が音声カーニングと呼ばれる。「カーニング」は、組版技術用語で、文字と文字の間に存在する横方向の空間を意味する。カーニングがタイトである場合、文字と文字の間の間隔が狭いが、カーニングがルーズである場合、文字と文字の間の間隔がもっと広い。

Ｊｉｖｅｗｏｒｌｄシステムの実施例は、文又は区分の間に存在する自然な無音領域を人工的に拡張させることで音声カーニングを実行させる（例：プログラミング技術を用い、音声プレイヤーを停止させたり、再生させたりすることによって実行させる）、聞き手に文を処理するためのより多くの時間を提供する。音声カーニングは（音声の高低を変えずに再生される速度を減速させる）「音声を時間的を引き伸ばす処理」とは独立した形で実行することができる。Ｊｉｖｅｗｏｒｌｄシステムは、例えば、各区分（例：タイムスタンプデータの各セグメント）の後に、５００ミリ秒の一時的時間を追加させることができる、又は音声の無音時間が１０００ｍｓより長くならないように処理することもできる。前記音声カーニンングは、非母語話者が平易に理解できなくなる、複雑な構造を持つ長い文を聞く際には特に役立つ。音声カーニンングは、音声データの個別な単語の発話速度を変更するものではないため、音声カーニンングが使用されても、ユーザーが言語の自然な音を聞くことができる。

タイムスタンプデータ１２９８が作成されてから、タイムスタンプデータ１２９８を対応する音声ファイル１２１２のトランスクリプトデータ１２９６（例：翻訳データ、その他データ）と組み合わせ、別のファイルを作成することができる（例：別のファイルもテキストファイルであることがある）。前記ファイルは、音声コンテンツのトランスクリプトを、音声コンテンツのトランスクリプトを、例えば、セクション、段落、文、個別の単語のタイムスタンプデータのヒエラルキーに整理することで作成することができる。ある単語又は複数の単語に関連する、各ワードグループの種類（前記語彙、聞き取りづらい単語、等）を特定するマーカーをトランスクリプトデータ１２９６の中で特定することもできる。

一つの例：構造化されたデータをＸＭＬで下記の通り書き込むことができる。

この例では、「ｉｎｔｅｎｔｏ」及び「ｄｅｓｐｅｒａｄｏ」という二つの（スペイン語の）単語が「語彙」として選択され、「ｄｅｓｐｅｒａｔｅａｔｔｅｍｐｔ」という英訳も備えられる。ＲｕｂｙやＰｙｔｈｏｎ又はその他プログラミング言語で書かれたスクリプト又はその他指示文１２９４（例として、「コンテンツ構文分析スクリプト」と呼ぶ）を使用し、両ファイルを構文解析し、タイミングデータを意味論的データと組み合わせることが可能である。結果として出来上がるＴ＆Ｔファイル１２１４を、対応する音声コンテンツ１２１２と関連づけられる形で、Ｊｉｖｅｗｏｒｌｄサーバー１２０６のデータストア１２５４に書き込むことができる。

下記、Ｔ＆Ｔファイル作成の一つの実施例をもっと詳しく描写する。図１２Ａで示されているよう、音声コンテンツ１２１２を得ると、Ｊｉｖｅｗｏｒｌｄサーバー１２０６は、音声コンテンツ１２１２に対応するトランスクリプト（例：音声コンテンツ１２１２の中で対象言語で発話されている単語）と、音声コンテンツ１２１２に対応する翻訳文（例：音声コンテンツ１２１２をＪｉｖｅｗｏｒｌｄの潜在ユーザーが使用する一つ以上の母語に翻訳された訳文）とを特定することができる（ステップ１２０３）。

得られたトランスクリプトは、無音領域、途中で途切れる単語、躊躇、吃音やその他話し言葉の特徴又は発話がトランスクリプトの中に書き込まれる「文字通り」のトランスクリプト又は注記が付けられたトランスクリプトに編集されることがある。トランスクリプトにはトランスクリプトの各部分（例：各文、段落、又はその他構文上又は意味論上の意味ある部分）の話者を記録する注記を付けることができる。例えば、音声コンテンツ１２１２は、インタービューやラジオ劇であることがある。その場合、対応する音声コンテンツ１２１２のトランスクリプトの各部分を話す話者又は登場人物をトランスクリプトに書き込むことができる。注記は、例えば、注記用に書かれた専用のマークアップ言語で付けることがある。

文字通りのトランスクリプトをその後、「区分分け」工程で区分に分けることができる（ステップ１２０５）。区分分けは、文字通りのトランスクリプトを、例えば、いっきに発せられる区分として定義できる区分（例：一定の速度で発話され得る区分）に分けることをいう。各セグメントは、音声コンテンツ１２１２の中にある、０．２５秒以上の無音音域を有しない一連の単語とすることができ、各セグメントが「文字通り」のトランスクリプトの詳細記載に基づいて作成されることもある。上記の通り、前記区分は、ある一定の速度で発話される音声ファイル１２１２の中にある短い音声コンテンツ（通常は２秒間から４秒間）からなることがある。セグメントは、センテンス全体からなることもあるが、場合よっては、センテンスの一部からなることがあり、時には単語一つからなる。各区分が識別子で特定され、区分の中の各単語も識別子を付与されることがある。一つの実施例では、学習対象として有用なワードグルーも特定されることがある。特定されたワードグループは、ある特定のワードグループカテゴリーに関連付けられる識別子を付与されることがある（例：「語彙」、「非標準」、「聞き取りづらい単語」、「注記」のための識別子）。

その上、Ｊｉｖｅｗｏｒｌｄサーバーがコンテンツを章にわけ（例：章も、セクションに切り分けることもできる）、各章に名称を関連づけることができる。本明細書で、「章」という単語は、表現されるコンテンツの一部を意味する（例として、本などの印刷物や音声教材における伝統的な「章」を意味しない）。このコンテンツ（例：音声又は対応するトランスクリプト又は翻訳文）はユーザーが消化できる章に分けられる（例：２から４分音声コンテンツ、又は話題が変わるまで）。ある特定の実施例では、コンテンツを章に分けないが、ある実施例では、コンテンツを章に分け、より短い音声区分にし、ユーザーの消化しやすさを図ることが望ましい。自然に発話されたコンテンツ（例：インタービュー、ラジオ番組、劇やその他登場人物がそれぞれのセリフを言うドラム）は話し言葉を学ぶために有効（例：オーディオブック等より有効）であることが判明している（何故なら、自然に発話されたコンテンツが、学習者にとって話し言葉を話されている通り習得する上、役立つからである）。自然に発話されたコンテンツの多くは、自然な境目を有しなことがある。よって、ある実施例では、ユーザーが各章に個別に集中できるように、前記コンテンツは章に分けられる。

文字通りのトランスクリプトにある各区分は、前記区分の開始時刻を指定する「区分の開始時刻タイムスタンプ」（例：音声コンテンツ１２１２の開始時刻からの経過時間を示す）および前記区分の終了時刻を指定する「区分終了時刻タイムスタンプ」（例：音声コンテンツ１２１２の開始時刻からの経過時間を示す）に関連づけられることができる（ステップ１２０７）。前記区分タイムスタンプをタイムスタンプデータファイルに保存して、文字通りのトランスクリプトにおける該当する区分を示す識別子に沿い、インデックス処理することができる。

各区分の開始時刻と終了時刻に付与されるタイムスタンプに基づき、各区分の中の各単語に関するタイムスタンプが、決定され（ステップ１２０９）、トランスクリプトにおける前記単語に関する識別子と共に、タイムスタンプデータファイルに保存されることができる。そして、各区分の区分開始時刻タイムスタンプと区分終了時刻タイムスタンプに基づき、各区分における各単語用タイムスタンプを決定することができる。前記ワード用タイムスタンプは、各区分の中にある各単語の開始時刻と終了時刻が記載されていることがある（例：そのことに従い、トランスクリプトの中にある開始時刻と終了時刻も前記ワード用タイムスタンプに記載される）。前記ワード用タイムスタンプは、例えば、各単語の開始時刻を記載するタイムスタンプ（例：音声コンテンツ１２１２の開始時刻からの経過時間を示す）及び、ある実施例では、各単語の終了時刻を記載するタイムスタンプを含む。図１２Ｄは、区分分けとタイムスタンピング用工程を描いた一つの実施例を示す。

ある実施例において、各区分の中の各単語の開始時刻と終了時刻の決定は、区分の開始時刻タイムスタンプと終了時刻タイムスタンプ、及び区分内の各単語の長さを基に、線形補間法を使用し、外挿されることができる（例：各区分で記載される各単語は、単語の長さ、又はある実施例では区分に記載されている全ての単語を合計した長さ、又はその他条件に従い、相対的ウエイトが付与される）。相対的ウエイトを、各区分開始時刻タイムスタンプ及び各区分終了時刻タイムスタンプの間の時間を各単語に割り当てることに使用することができる。前記区分タイムスタンプをタイムスタンプデータファイルに保存して、文字通りのトランスクリプトにおける該当する区分を示す識別子に沿い、インデックス処理することができる。タイムスタンプを単語レベルの範囲で設定することは、音声コンテンツの提示と対応するコンテンツの視覚的表現との同期化を容易にすることに役立つ。

区分、単語用タイムスタンプ、各区分の中のグループの特定及びの他のメタ情報が確定されたら、前記トランスクリプトデータとタイムスタンプデータを、翻訳文と共に、Ｔ＆Ｔファイル１２１４として組み合わせることができる（ステップ１２１１）。

下記は、オーディオファイル用Ｔ＆Ｔファイルの生成の例を描写する。図１２Ｅ及び１２Ｆを参考にする。音声コンテンツの一部を書き起こした、非表示処理されていないトランスクリプト（図１２Ｅ）、及び、同じ音声コンテンツを書き起こした、前記非表示処理されていないトランスクリプトに対応する、部分非表示処理されたトランスクリプト（図１２Ｆ）が描写されている。

下記には、前記音声コンテンツから書き起こされた、注記が記載されたトランスクリプトの例が表示される。

前記注記が記載されたトランスクリプトにおける前記タイムスタンプデータは、下記の通りにできる。３つの列は：

下記にある付録Ａには、前記ファイルを組み合わせることによって作成される関連音声ファイルのＴ＆Ｔファイルが記載される。

図１２Ａ及び１２Ｃを参考とする。音声コンテンツと関連づけられた音声コンテンツ用Ｔ＆Ｔファイルの要求及び入手方法の実施例一つが示される。クライアントデバイス１２０２にあるクライアントアプリケーション１２０４はＪｉｖｅｗｏｒｌｄサーバー１２０６のインターフェース（例：サービスインターフェース）からコンテンツの特定な一部又は章を要求し、前記コンテンツをデバイス１２０２上に保存することができる。上記同様、クライアントアプリケーション１２０４がサーバー１２０６から２つのファイルを入手することができる。前記２つのファイルは、聴覚的に表現されるコンテンツを記録したオーディオファイル（例：ｍｐ３又はその他ファイル形式）、及びＴ＆Ｔファイル１２１４であり、前記Ｔ＆Ｔファイルはテキスト、時間情報、音声コンテンツにあるワードグループ、及び対応するオーディオファイルの対応する位置にインデックス化された（例：時刻によってインデックスされた）、各単語に属するタイムスタンプと持続時間情報からなる構造化データファイルを含む。

クライアント側アプリケーション１２０４において、構造化されたトランスクリプトとタイミングデータとを構文解析すること、及びアプリケーション１２０４のインターフェースにおけるテキストレイアウトを生成することは、標準的な深さ優先木イテレータを使用し実行することができる。視覚的様子の見方が、動的機能を利用し、再生中、又はその他の状況において、変更されることができる。例としては、オーディオプレイヤーがタイミングデータの中にある単語の開始時刻と持続時間に相当する時点まで到達した場合、レイアウトの中にある前記単語の色を変更する。

ある変数を変更することによってユーザーインターフェース要素の特性を変更する前記手法は、「データビンディング」と呼ばれ、ＲｅａｃｔＪＳ、ＲｅａｃｔＮａｔｉｖｅ、ＡｎｇｕｌａｒＪＳ等の近代的なユーザーインターフェースフレームワークによってサポートされる。非表示処理されたテキストと大処理されてないテストの表現は、各単語の周りにある最小境界線を計算するレイアウ要素の中に表現することで実装できる。前記レイアウ要素は、図１３で表示されている、「バウンディングボックス」と呼ばれるテキストを囲む枠である。インターネット上（又は、ワールドワイドウェブ上）（使用言語例：ＨＴＭＬ又はその他マークアップ言語）にあるほとんどの近代的ユーザーインターフェースライブリー及び携帯通信端末は前記技術を提供する。

図１３で表示されているようなアルファベットを利用するフォントの場合、実施例は親バウンディングボックスの内側に、その幅の１００％まで最大化される丸角の長方形を描くことにより、非表示処理用マクスの大きさを決定することができる。美学的理由により、フォントのベースラインと平均ラインとの間に収まるように、マスクの縦のサイズを決めることが望ましいこともある。フォントの平均ライン高さは、「ｘの高さ」と呼ばれる。マスクを表現するために、レイアウトに関し、実施例は、前記値で設定されることができる（使用されるフォント又は複数のフォントにより、前記値を設定することができる）。その後、クライアントアプリケーションが、非表示処理用マスク及びテキストが視覚可能な状態にあるかどうかを、それぞれの非透明度値を調整することで設定することができる。非透明度値がゼロだと、前記要素が見えなくなる。同じような基本的な手法で下線を引くことも可能である。

同じような技術が、異なるフォントや異なる種類の言語で使用されるフォントに適用されることができる。図１４Ａは四角い輪郭に入る文字を使用する日本語に適用した実施例を示す。日本語は、構造上、通常名詞の後に助詞がある。英語の前置詞に相当する「後置詞」とも言える。バウンディングボックスの中にバウンディングボックスを使用すれば、重層化された非表示処理を作ることができる。最初の（暗い色の）マスク１４１０は３つの文字を覆い、マスク１４１０は、内側の白いマスク１４２０を含み、内側の白いマスク１４２０は、第三の文字を覆い、第三の文字は、前にある名詞に取り付けられた助詞である。

図１４Ｂは、日本語のテキストのための非表示処理を例証する代替の実施例を示す。日本語は４つの異なる文字で書くことができる：「漢字」（数千個ある中国由来の表意文字で、各文字が個別に学習しなければならない、文脈によって異なる発音を持つ）、「平仮名」及び「片仮名」（集合名詞は「仮名」、それぞれがお互いに対応するおよそ５０個の文字からなり、各文字の発音が固定されている）、及び「ローマ字」（仮名の発音をラテン文字で表したもの）、下記の例で割愛される。図１４Ｂのように、適切な平仮名を上付け文字として漢字の上に表示させることで、漢字の発音を示すことができる。

一つの漢字は、一、二、又はそれより多い音節で発音することが可能であるが、各仮名は多くても、一つの音節に相当する（場合によっては、二つの仮名が合わせて一音節を表すことはあるが、その場合、２番目の文字は小さなフォントで表示される）ことは留意すべきである。

実施例の手法が視覚的な非表示処理法を使用し、非表示処理された文字の基本構造や表現法について部分的に情報を伝えることを所与として、図１４Ｂは、非表示処理下で各文字のカテゴリ（漢字又は仮名）と音節の数とが伝えられることができる実施例を示している。

漢字は暗い色の背景を用い、非表示処理が実行されているが、仮名は薄い色の背景（例：白）を用い、非表示処理が実行されており、マスクの長さは文字で書かれた非表示処理された単語の長さを示す。又、マスクの中に埋め込まれている点の数は、非表示処理された各文字を発音するために発話しなければならない音節の数を示している（点は、マスクの色と対照的な色で表示される）。

カーソル下にある、現在オーディオの中で発音されている単語、又は前記単語に対応するマスクが視覚的に確認しやすい色（例：青緑）でハイライトされることができると同様、マスクの中の点も、オーディオと同期してハイライトされ、各発話される音節を表し得る。

あるワードグループカテゴリー又はある特定のワードグループが文字として表示されるか非表示処理されるかの設定は、クライアントアプリケーションにおけるクライアント状態毎にユーザーが選択した設定（例：上記の図３Ａを参照）により動的に制御することができ、前記ユーザー設定は、ユーザーが補助ボタン操作を記録すること、又はタッチスクリーンディスプレー上の単語に対するタップ又はクリックを記録することで実行することができる。

前記「巻き戻し状態」挙動（例：図４Ａ、４Ｂ及び４Ｃで描写されている）は、コンテンツの視聴状態を追跡するために、２つのカーソルを使用することができる（現在視聴している位置を示すカーソル（単なるカーソルとも呼べる）、及び「最も進んだ再生位置」を示すカーソル）。

ある実施例では、前記カーソルの変数はトランスクリプトにある単語の参照情報を記憶する（例：「アドレス」等、単語の要素を特定する識別子）。ユーザーがコンテンツを巻き戻した際を除き、両カーソルが同等になる。現在視聴している位置がユーザーが巻き戻す前に視聴していた位置に追いつくと、ユーザーがもう一度音声コンテンツを巻き戻す操作又は後ろへ移動させる操作を行わない限り、両方カーソルが同等になる。よって、Ｊｉｖｅｗｏｒｌｄアプリケーション１２０４の実施例は、両カーソルを比較し、ユーザーが巻き戻し状態に入っているかどうかを確認し、その判断に従い、表示されているユーザーインターフェースを修正することができる。

下記には、図１２Ａに再度参考をしながら、クライアントアプリケーション１２０４をより詳細に紹介することとする。クライアントアプリケーション１２０４は、上記の説明の通り、視覚的インターフェース１２８４のコンテンツを視覚的に表現するために調整された視覚的インターフェース１２８４及び対応する音声コンテンツを表現させるためのオーディオプレイヤー１２８２を含むことがある。前記オーディオプレイヤー１２８２は、例えば、アプリケーション１２０４が実行されているデバイス１２０２の（内臓）オーディオプレイヤーである場合と、アプリケーション１２０４が通信するネイティブオーディオプレイヤーである場合と、アプリケーション１２０４が通信するライブラリーである場合がある。視覚的インターフェイス１２８４と視覚的表示は、オーディオプレイヤー１２８２で再生されてる音声コンテンツと同期化されるように動的に生成されることがある。

アプリケーション１２０４がオーディオファイル１２１２及び対応するＴ＆Ｔファイル１２１４を受信すると、アプリケーション１２０４は、Ｔ＆Ｔファイル１２１４を読み取り、Ｔ＆Ｔファイル１２１４で定義される各要素（エンティティとも呼べる）（例：セクション、段落、文、ワードグループ、ワード等）に関するオブジェクトをインスタンス化する。よって、各要素に関する各オブジェクトは、Ｔ＆Ｔファイルの中で前記要素を定義するメタデータを使用することにより属性が決定され、インスタンス化されたオブジェクトである（例：要素に関するオブジェクトは、Ｔ＆Ｔファイル１２１４で規定されている通りの、要素を規定する変数のメタデータを使用しインスタンス化される）。各要素カテゴリーに関する各オブジェクトは、前記オブジェクトのローカルデータ及びアプリケーション１２０４の大域状態に基づき、前記要素カテゴリーがどのように表現されるべきかを定義する方法を含む。よって、要素（例：インターフェースの、視覚的に表現された構成要素）は、アプリケーション１２０４が維持する大域状態に対応するオブジェクトにより表現されることができる。

具体的に、各要素には、要素の線的順番及びその他の要素を含むヒエラルキーを表す「アドレス」を付与することができる。例えば、「単語」要素が「ワードグループ」要素の中に含まれ、前記「ワードグループ」要素が「文」要素中に含まれ、前記「文」要素が「段落」要素の中に含まれ、前記「段落」要素が「セクション」要素の中に含まれることがある。前記アドレスは、要素のヒエラルキーの中にある各要素に関する構成要素を含むことがある。前記方法の実施例が図１５で描写され、前記図は下記より詳細に説明される。

アプリケーション１２０４は、オーディオプレイヤー１２８２における音声コンテンツの再生状態に基づき、カーソルが同期化された状態、又はその他状態、を含む大域状態を維持させることができる。カーソルは、オーディオプレイヤー１２８２で現在再生されている音声に対応するトランスクリプト要素のアドレス値を保持することができる。特に、クライアントアプリケーション１２０４は、オーディオプレイヤー１２８２によってオーディオファイルにおける現在再生している位置の時間を監視し、その再生位置（再生位置は時間の単位で表される）に基づき、その特定の時間における視覚的トランスクリプト要素を識別し（例：前記特定は、各単語やトランスクリプトの区分に対応するタイムスタンプに基づく）、その要素のアドレスを識別し、現在のカーソルのアドレスを前記要素のアドレスに合わせ、更新されたカーソルのアドレスを各要素に関する各オブジェクトによる消費のために伝えることができる。ユーザーと視覚的トランスクリプトとの接し方に基づき、カーソルと音声プレイヤーの再生位置を調整することができるよう、クライアントアプリケーション１２０４は、ユーザーが視覚的表現とどう接するかを監視することがある（例：図４Ｄで示されている通り、ユーザーが特定な文に対応する再生ボタン４２８を操作すれば、カーソルの位置を、前記文の最初の単語まで移動させることができる）。

各要素に関する対応するオブジェクトは、カーソルの状態およびアプリケーションのその他状態（例：補助機能の設定）により前記オブジェクトの表現形式を調整するように適応された方法を有する。表現された各要素に関するオブジェクトは、このようにクライアントアプリケーション１２０４に登録され、カーソルの位置が変更されているかどうかを確認し、カーソルの状態によりオブジェクトの状態を変更するべきかどうかを判断する。

よって、各要素カテゴリー（例：セクション、段落、文、ワードグループ、単語）の各要素に関するオブジェクトは、カーソルの状態が変化すると、通知等を受け、カーソルの状態（例：カーソルに関連づけたアドレス）や、前記要素のオブジェクトに特有な任意のデータ、又は任意の局所状態又は大域状態に基づいて、それ自身を表現することができる（例：非表示処理の解除、非表示処理の設定、下線の設定、関連ヒントを表示する処理等）。例えば、ある要素に関する特定のオブジェクトに関して、カーソルが保持するアドレスが前記要素のアドレスに相当する場合、前記要素は、ある特定の表現形式で（例：ハイライトされた又は非表示処理されていない形式）それ自身を表現し、カーソルが保持するアドレスが前記要素のアドレスに相当しない場合、前記要素は、第２の方法で（例：グレー・アウト、非表示処理された形式）それ自身を表現する。例えば、要素に関するオブジェクトは、カーソル（例：アドレス）がオブジェクトの前に位置するか又はオブジェクトの後に位置するかを判断し、その判断により、それ自身を異なって表現することができる。

クライアントアプリケーション１２０４によって保持され、各要素に関するオブジェクトによる要素の表現に影響与える大域変数の例としては「最も進んだ再生位置」の変数があり、前記変数はユーザーが現在の音声コンテンツを視聴する過程で接したことがある要素の中で最も前に進んだ要素（時間的には、音声終了時点に最も近い要素）のアドレスを保持することができる。言い換えれば、ユーザーが提示されているコンテンツを巻き戻した場合又は後ろへ移動させた場合、カーソルの位置と「最も進んだ再生位置」が異なる。よって、各要素に関する各オブジェクトは、前記要素のアドレスが現在カーソルが有するアドレスと同様であるかどうか（例：カーソルは今現在前記オブジェクトを指されているかどうか）やユーザーが今回の視聴で前記要素と接したことがあるかどうか、を判断するために、上記の状態を使用することができる。よって、あるオブジェクトがある要素を、視覚的表現の中でどのように描くかが上記の判断によることがある。一般性を損うことなく、クライアントアプリケーション１２０４によって保持され、オブジェクトによって要素を表現するために用いられ得る他の状態がある。

クライアントアプリケーション１２０４は、下記より詳細に説明される。ある実施例では、コンテンツを再生する上での基本的な単位は、「章」であり、前記「章」は、音声の一部ではないこともある注記、メモやヒントで分散させられたオーディオトラックの個別的な部分である（例：数分の長さを有する）。音声コンテンツが数分を超える長さを有する場合、上記にある記載の通り、章に分けることができる。

エピソード内のフローコントロールは比較的に単純である場合がある。ユーザーは、各章のコンテンツがある程度分かるまで、各章の学習（又は再学習）を順番に進め、その後次の章へ（次の章は、章のメニュー＾から無作為に選択することができる）と進むように仕向けられることがある。ユーザーが、一つずつのコンテンツに注意力を順番に払うことが望ましいため、可能な限り、ユーザーが読んでいる又は見ている視覚的表現のコンテンツとユーザーが同時に聞いている聴覚的コンテンツが異ならないよう、クライアントアプリケーション１２０４のインターフェースが調整されている。

よって、アプリケーションが音声ファイルに含まれていないある特定のコンテンツ（例：チャプターノート、セクションヒント等）をユーザーに提示する際（例：最初の提示）、オーディオプレイヤー１２８２のオーディオ再生を一時停止させることができる。ユーザーが、特定の接し方（例：下線の引いてある単語をタップし、単語の定義や注記を閲覧する）を用い、視覚的表現と、操作する場合にも、オーディオ再生を一時停止させることができる。よって、ユーザーがある章と接していても（例：前記接し方がクライアントアプリケーション１２０４の大域状態にあるｉｓＣｈａｐｔｅｒＰｌａｙｉｎｇ変数によって示される）、前記状態は必ずしも前記章の音声コンテンツがオーディオプレイヤー１２８２で再生されている状態（例：前記状態がクライアントアプリケーション１２０４の大域状態にあるｉｓＡｕｄｉｏＰｌａｙｉｎｇ変数によって示される）と同様な状態であると限らない。

図１５で示されているよう、インターフェースで視覚的に表示されている視覚的な要素（視覚的な要素又はトランスクリプト要素とも呼ばれる）は、線形順序と構成的な構造との両方を有する。例えば：
構成的な構造：セクション＞段落＞文＞ワード
線形順序：セクションヒント→セクションのノート→ハイライトされた文→１番目のワード→２番目のワード

各要素は、図１５で示される順序及び構成的構造の両方を含むアドレスを付与されることがある。ある一つの実施例では、ある要素に関するアドレスは、最大で４つの要素を有することができる。ゼロから始まるインデックスは、ネストされた配列や木構造で要素の検索を平易とする。“２．０．１．０”のアドレスを付与された要素⇒要素［２］［０］［１］［０］。ある実施例では、アドレスの各インデックスの間には、アドレスの比較に役立つ後置セパレーターを含むセパレーター（例としては、句点）がある。

前記アドレスは、相対的シーケンス順で与えられた下記の例を参考に理解することができる。

よって、クライアントアプリケーション１２０４の大域状態において、アドレスを指し示す重要な値又は変数が、少なくとも二つ存在する。１）（現在）のカーソルーユーザーが現在学習している要素のアドレス（例：オーディオプレイヤー１２８２で再生されている聴覚的表現）を参照する、および、２）ｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔ（最も進んだ位置）カーソルーユーザーが現在の視聴の中で接したことがある要素中かで最も前に進んだ要素のアドレスを指し示す。ある実施例では、カーソルとｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔカーソルが異なるアドレスを指し示すのは、ユーザーがコンテンツを巻き戻した場合又は再生位置を後ろに移動させた場合にのみである。ユーザーが章をもう一度聞き直す場合、カーソルもｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔもリセットされる。図１６は、章に関する時系列の関係においてこれらの二つの変数を図示したものである。

よって、前記実施例の場合、ユーザーがコンテンツを巻き戻した際又はその他手動方法を使用し、再生位置を後ろに移動させた際、カーソルとＦｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔカーソルが異なるアドレスを参照するが、その状態と関連する重要な不変的な条件があり、前記条件は常にカーソル≦ｆｕｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔ。よって、各要素（例：各要素をインスタンス化したオブジェクト）は視覚的表現の中で前記要素の表現形式を判断するために使用できる二つのブーリアン型変数を計算することができる：ｉｓＵｎｄｅｒＣｕｒｓｏｒ＝ｆ（要素のアドレス，カーソルアドレス）とｉｓＶｉｓｉｔｅｄ＝ｆ（前記要素のアドレス、ｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔ）。ユーザーがある要素と接したかどうかを判断するために前記変数を使用する方法は図１７で表示されている。

要素のアドレスに関連する基礎ロジック及び前記ブーリアン型変数を計算するためのＪａｖａＳｃｒｉｐｔ（登録商標）の例は下記の通りである：

よってクライアントアプリケーション１２０４のカーソルマネジャーが、視覚的インターフェースが効果的に表現できるように、現在のカーソル、「最も進んだ再生位置」の変数、及び各要素に関するオブジェクトが使用するその他の大域状態変数を保持しなければならないことがある。図１８の説明に入る。前記図には、カーソルマネジャー１８０２の実施例一つを描写するブロック図が表示されている。カーソルマネジャー１８０２は、ある要素の順番も構想も反映される抽象的なアドレスを利用し、現在のアドレスに基づいた変数を特定し、前記特定により、要素と関連づけられたオブジェクトによる前記要素の表現形式を決定することができる。他の実施例では、カーソルマネジャー１８０２がオーディオプレイヤー１２８２が記録する現在の時間を「時間を感知する要素」（例：カーソルがある時間又は位置により表現形式を変えるオブジェクト）が挙動の一部のトリガーとして利用する「基準時間」とすることがある。

よって、ある実施例では、各要素に対応するオブジェクトが、カーソルマネジャー１８０２が特定した値に基づき、特定された以下の二つの（例：ブーリアン型）変数を参考に、トランスクリプト要素（例：単語、文、段落、セクションヒント、メモ等）の視覚的な挙動が決定されることがある：１）ｉｓＵｎｄｅｒＣｕｒｓｏｒ－前記変数は要素のアドレスをカーソルのアドレスに比較することにより計算される、及び２）ｉｓＶｉｓｉｔｅｄ－前記変数は要素のアドレスｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔのアドレスに比較することにより計算される。

よって、カーソルマネジャー１８０２は、オーディオプレイヤー１２８２を間欠的にポーリングすることでコンテンツの視覚的表現における単語の提示とオーディオプレイヤー１２８２における聴覚的表現が正しく同期化されるように内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒ）を調整することができ、前記制御によりカーソル及びｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔの大域状態を設定すること、又はカーソルを適切の時間に移動するよう内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒ）を管理することができる。カーソルマネジャー１８０２は、カーソルが現在指定しているトランスクリプト要素によりオーディオプレイヤーの一時停止・再生を関すること、又は巻き戻しのロジックを管理すること（例：カーソルやｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔ変数の調節による方法で）を管理することができる。

具体的に、特定な実施例では、カーソルマネジャー１８０２は以下のことができる：
ｉｓＣｈａｐｔｅｒＰｌａｙｉｎｇが真である間、内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒｔｉｍｅｒ）によりカーソル及びはｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔを増分させるタイミングを決定すること；ユーザーが視覚的表現を操作した際カーソル又はｆｕｒｔｈｅｓｔＰｌａｙｅｄＥｌｅｍｅｎｔの値が正しく調節するように巻き戻し及び移動のロジックを管理すること；現在のオーディオプレイヤー１８０２ーを管理すること（例：オーディオプレイヤーのｐｌａｙ（），ｐａｕｓｅ（），ｓｅｅｋＴｏ（），ｓｅｔＴｉｍｅＳｔｒｅｔｃｈ（）をコールすること）。

カーソルマネジャー１８０２は、カーソルをいつ増分させるかを決めるため、内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒｔｉｍｅｒ）を使用する。ある実施例では、タイムアーを設定するためのロジックを以下の通りにできる。

トランスクリプト要素のオブジェクト（例：ワード、文、段階、セクションヒント、メモ等）は、時間関連属性を共有したり保持したりすることができ、前記属性は以下のものを含む：
ｄｕｒａｔｉｏｎ（持続時間）（例：ミリ秒）ーオブジェクトに関する対応する要素がハイライトされるべき時間持続時間。いくつかの要素は、属性を有しないこともある（例：文、段落ー現在の要素を構成する単数又は、複数の単語及び前記ｉｓＵｎｄｅｒＣｕｒｓｏｒロジックに従い、持続時間が計算できるので。
上記で詳細に記載されている通り、ｄｕｒａｔｉｏｎ（例：ミリ秒）ーｉｓＣｈａｐｔｅｒＰｌａｙｉｎｇが真である間、内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒ）の時間を判断するのに使用することができる。
ａｕｄｉｏＳｔａｒｔ（音声開始）（例：ミリ秒）ー音声コンテンツにおいて、対応する要素が開始する時点を指すタイムスタンプ（音声コンテンツにある要素のためにのみこの属性を保持しても良い）。
ａｕｄｉｏＳｔａｒｔ（音声開始）（例：ミリ秒）ー前記属性には以下の用途がある：巻き戻しや移動の際、オーディオプレイヤーの位置を移動させるためにオーディオプレイヤーにｓｅｅｋＴｏ（）をコールする；実際のオーディオプレイヤーの時間を内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒ）に比較することで、内部タイマー１８０４（ｄｅａｄＲｅｃｋｏｎｅｒ）のタイミングを調整すること。

下記には、ある実施例において、トランスクリプトに記載されている単語がどのように選択的に非表示処理されるかを説明する。下記のＪａｖａＳｃｒｉｐｔ（登録商標）類似擬似コードは、ある一つの実施例において、トランスクリプトに記載されている単語が選択的に非表示処理されるロジックを描写する。前記の実施例では、あるオブジェクト（例：要素）が、クライアントアプリケーションの複数な状態を感知することにより、それ自身を非表示処理された表現（例：マスクとしての表現）にすべきか、非表示処理されていない表現（テキスト又はワードが表現される）にすべきかを決定する。

ワードグループＢの一部であるワードを例に取る。例としては、カーソルが既に前記単語に接しており（前記単語が既に音声の中で再生されている）、非表示処理する条件を満たしていると仮定する。その場合、例の擬似コードにより、下記の条件の少なくとも一つが満たされている場合（いくつかの場合、満たされているにのみ）、前記単語が非表示処理されないで表現される：ユーザー（又はシステム）がワードグループＧを非表示処理しないことを選択した場合（例えば、ワードグループの中のいずれかの単語にタップすることで）；ユーザー（又はシステム）は「語彙」カテゴリーの全てのワードグループが接されると自動的に非表示処理が解除することを選択している場合；ユーザー（又はシステム）はトランスクリプトで記載されている全てのワードグループが接されると自動的に非表示処理が解除することを選択している場合。

Ｔ＆Ｔファイルデーターの例と要素のデータモデル例が記載されている付属されている付録を参照にすると、開示されている実施例はより鮮明に把握することができる。収録で書いてある実施例や例は、例として提供されているもので、「しなければならない」、「必要とする」、「必要がある」又は上記表現と類似性のある、限定性のある表現は、前記実施例にだけ適用され、開示されている一般的な実施例に適用されないと留意すべきである。

前記発明、前記発明における複数の機能及び前記発明が優位性を有する詳細は、付属の図で描写され、下記の文書で詳細に記載される制限性のない実施例を参考に、より完全に説明される。発明の詳細を分かりにくくすることを回避するため、周知の出発材料、処理技術、構成部品と装備が割愛される。しかし、発明の詳細な説明及び特例な例は、発明を実装するための好ましい実施例を指摘するが、発明を説明するためのものであり、発明を限定させるものではないことも留意すべきである。根底にある発明性のある概念の本質及び・又は範囲内にある複数の代替案、改修案、追加案又は組換案が、当業者にとっては前記開示から明らかになるであろう。本明細書で説明される実施形態は、コンピュータ読み取り可能な媒体（例えば、ハードドライブ（ＨＤ））、ハードウェア回路など、又は前記媒体や回路の任意の組み合わせ上に記録されている、適切なコンピュータ実行可能命令により実装することができる。

特定の実施例を実装するためのハードウェアアーキテクチャが本明細書で説明される。ある実施例は、ネットワークが一台又は複数台のコンピューターと通信可能に接続されることがある。

本明細書で記載される機能及び工程の少なくとも一部分が適切なコンピューター読み取り可能な命令で実装することが可能である。コンピューター実装可能命令は、は、ソフトウェアコードコンポーネント又はモジュールとして、一つ又は複数のコンピュータで読み取り可能なメディア（不揮発性メモリ、揮発性メモリ、ダイレクトアクセスストレージドライブ（ＤＡＳＤ）アレイ、磁気テープ、フロッピー（登録商標）ディスク、ハードドライブ、光記憶装置等、又はその他任意の、適切なコンピューター読み取り可能な媒体又は記憶装置）に保存することができる。ある実施例では、コンピュータ実行可能命令は、コンパイルされたＣ＋＋、Ｊａｖａ（登録商標）、ハイパーテキストマークアップ言語（ＨＴＭＬ）、又は任意の他のプログラミング言語又はスクリプト言語を含むことがある。

その他、開示された実施例の機能は、ネットワークの中、又はネットワークを跨ぎ、二台以上のコンピュターに分担、付与されていることがある。実施例を実行するコンピュータ間の通信は、任意の電子、光、無線周波数信号、又は既知のネットワークプロトコルに準拠した他の適切な通信方法及びツールを使用して達成することができる。

本明細書で記載されている、「からなる」（原文：ｃｏｍｐｒｉｓｅｓ）、「を構成する」（原文：ｃｏｍｐｒｉｓｉｎｇ）、「含む」（原文：ｉｎｃｌｕｄｅｓ）、「を含んでいる」（原文：ｉｎｃｌｕｄｉｎｇ）、「有する」原文：（ｈａｓ）、「有している」（原文：ｈａｖｉｎｇ）、又は前記の用語から派生する類似性ある用語を記載することは、非排他的な意味合いを表すためである。
例えば、ある工程、製品、物品や装置の説明が、ある要素の一覧を記載したとしても、前記要素は必ずしも前記要素のみからなることはなく、前記一覧に明示的に記載されていない要素、又は前記工程、製品、物品、又は装置の一部を本質的に成す要素を含むことがある。
又、その他の解釈が記載されていない限り、「又は」という表現は、包括的論理和を意味、排他的論理和を意味しない。
例えば、「条件Ａ又は条件Ｂ」が記載されている場合、下記に記載されているいずれもの状況はにより満たされることとする。
Ａが真（又は存在する）およびＢが偽（又は存在しない）；Ａが偽（又は存在しない）およびＢが真（又は存在する）；ＡとＢの両方が真（又は存在する）。

さらに、本明細書に記載されている例又は図を解釈し、前記例又は図と共に記載されている単数又複数の用語に対し制限を加えている、限定をしている、又は定義を規定していると解釈することができない。
その代わり、前記例又や図は、一つある特定な実施例のみを説明するためのものであると解釈することとする。当業者は、前記例又は図と共に記載されている全ての用語が、前記例又は図が本明細の中に記載されている位置、又はその他の位置に記載がない他の実施例も包含し、前記用語が指す範囲には、前記その他実施例も含まれると解釈する。
限定性のない例や図を指摘する用語は、「例：」（原文：ｆｏｒｅｘａｍｐｌｅ）、例えば（原文：ｆｏｒｉｎｓｔａｎｃｅ）、例えば（原文：ｅ．ｇ．）や“ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ”（原文：ある実施例では）を含むがそれに限定されない。

上記には、発明の利点、その他優勢点、及び問題の解決策は、特定な実施例を参考に説明されている。ただし、発明の利点、その他優勢点、問題の解決策、および発明の利点、その他優勢点、又は解決策を発生させたり、より顕著にしたりする実施例の要素は、発明の重要、必須、又は不可欠の機能として解釈されるべきではない。
付録Ａ
付録Ｂ
データモデル
エピソード及び章のために使用される静的モデルの例
スクリプト要素のためのモデル例

Claims

言語学習システムであって、前記言語学習システムは、
プロセッサと非一時的コンピューター読み取り可能な媒体とを含むサーバーであって、前記非一時的コンピューター読み取り可能な媒体は、
対象言語におけるコンテンツを備えている音声ファイルを受信することと、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記コンテンツの前記単語の前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいて、前記音声ファイルに対応するトランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプとを備えている、ことと
を行うための命令を備えている、サーバーと、
クライアントデバイスであって、前記クライアントデバイスは、プロセッサとクライアントアプリケーションとを備え、前記クライアントアプリケーションは、
前記音声ファイルと、前記対応するトランスクリプトおよびタイミングファイルとを入手することと、
前記クライアントデバイスにおけるオーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、前記トランスクリプトおよびタイミングファイルを使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、前記オーディオプレイヤーによる前記コンテンツの前記聴覚的表現と同期され、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記非表示処理されている単語を前記視覚的表示において対応するマスクとして表現することによって非表示処理され、前記マスクは、前記対応する非表示処理された単語に従ってサイズを決定され、
前記非表示処理されていない単語の組の各々は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプと前記オーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語の表現をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を行うための命令を含む、クライアントデバイスと
を備えている、言語学習システム。
前記非表示処理されていない単語の組は、１つ以上のワードグループの種類を含み、前記１つ以上のワードグループの種類は、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、請求項１のシステム。
前記１つ以上のワードグループの種類は、前記インターフェースを使用するユーザーによって選択される、請求項２のシステム。
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、請求項１のシステム。
前記クライアントアプリケーションは、要求される補助の度合いに基づいて、前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率を改変するための命令を備えている、請求項１のシステム。
前記マスクは、前記対応する単語の前記コンテンツに基づいて形を決定される、請求項１のシステム。
前記サーバーの前記非一時的コンピューター読み取り可能な媒体の前記命令、または前記クライアントアプリケーションの前記命令は、
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
を行うための命令を含む、請求項１のシステム。
言語学習方法であって、前記言語学習方法は、
対象言語におけるコンテンツを備えている音声ファイルと、対応するトランスクリプトおよびタイミングファイルとを入手することであって、前記トランスクリプトおよびタイミングファイルは、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記コンテンツの前記単語の前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいて、前記音声ファイルに対応する前記トランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプとを備えている、ことと
によって生成される、ことと、
オーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、前記トランスクリプトおよびタイミングファイルを使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、オーディオプレイヤーによる前記コンテンツの前記聴覚的表現と同期され、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記非表示処理されている単語を前記視覚的表示において対応するマスクとして表現することによって非表示処理され、前記マスクは、前記対応する非表示処理された単語に従ってサイズを決定され、
前記非表示処理されていない単語の組の各々は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプと前記オーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語の表現をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を含む、言語学習方法。
前記非表示処理されていない単語の組は、１つ以上のワードグループの種類を含み、前記１つ以上のワードグループの種類は、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、請求項８の方法。
前記１つ以上のワードグループの種類は、前記インターフェースを使用するユーザーによって選択される、請求項９の方法。
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、請求項８の方法。
前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率は、要求される補助の度合いに基づいて、改変される、請求項８の方法。
前記マスクは、前記対応する単語の前記コンテンツに基づいて形を決定される、請求項８の方法。
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
をさらに含む、請求項８の方法。
非一時的コンピューター読み取り可能な媒体であって、前記非一時的コンピューター読み取り可能な媒体は、
対象言語におけるコンテンツを備えている音声ファイルと、対応するトランスクリプトおよびタイミングファイルとを入手することであって、前記トランスクリプトおよびタイミングファイルは、
前記対象言語における前記音声ファイルの前記コンテンツの単語のトランスクリプトを入手することと、
前記音声ファイルと前記コンテンツの前記単語の前記トランスクリプトとに基づいてタイムスタンプファイルを生成することであって、前記タイムスタンプファイルは、前記トランスクリプトの各単語に関するワード用タイムスタンプを含み、前記トランスクリプトの各単語に関する前記ワード用タイムスタンプは、そのワードが前記コンテンツにおいて出現する場所に関連付けられた前記音声ファイルにおける時間に対応する、ことと、
前記トランスクリプトと前記タイムスタンプファイルとに基づいて、前記音声ファイルに対応する前記トランスクリプトおよびタイミングファイルを生成することであって、前記トランスクリプトおよびタイミングファイルは、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語と、前記音声ファイルの前記コンテンツの前記トランスクリプトの各単語に関する前記関連付けられたワード用タイムスタンプとを備えている、ことと
によって生成される、ことと、
オーディオプレイヤーを使用して、前記音声ファイルの前記コンテンツを聴覚的に表現することと、
前記音声ファイルの前記コンテンツの前記聴覚的表現と同時に、前記トランスクリプトおよびタイミングファイルを使用して、インターフェースを動的に生成することであって、前記インターフェースは、前記対象言語の前記コンテンツの視覚的トランスクリプトの視覚的表示を含み、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示は、前記オーディオプレイヤーによる前記コンテンツの前記聴覚的表現と同期され、前記コンテンツの単語の組の視覚的トランスクリプトを含み、
前記コンテンツの前記単語の組の前記視覚的トランスクリプトは、非表示処理されている単語の組と非表示処理されていない単語の組とを含み、
前記視覚的表示における前記非表示処理されている単語の組の各々は、前記非表示処理されている単語を前記視覚的表示において対応するマスクとして表現することによって非表示処理され、前記マスクは、前記対応する非表示処理された単語に従ってサイズを決定され、
前記非表示処理されていない単語の組の各々は、前記対象言語の文字で前記視覚的表示において表現される、ことと、
前記コンテンツの前記視覚的トランスクリプトの前記視覚的表示を前記コンテンツの前記聴覚的表現と同期させることであって、前記同期させることは、
前記トランスクリプトおよびタイミングファイルにおける単語に関連付けられた前記ワード用タイムスタンプと前記オーディオプレイヤーの状態とに基づいて、その単語が前記コンテンツの前記聴覚的表現において表現されていることを判断することと、
前記聴覚的表現におけるその単語の前記聴覚的表現と実質的に同時に、前記視覚的表示におけるその単語の表現をハイライトすることであって、前記単語が前記非表示処理されている単語の組に属する場合、その単語に対応する前記マスクがハイライトされ、前記単語が前記非表示処理されていない単語の組に属する場合、前記単語の前記文字表現がハイライトされる、ことと
を含む、ことと
を行うための命令を含む、非一時的コンピューター読み取り可能な媒体。
前記非表示処理されていない単語の組は、１つ以上のワードグループの種類を含み、前記１つ以上のワードグループの種類は、語彙、非標準的使用例、聞き取りづらい単語、または、注意が付いた単語を含む、請求項１５の非一時的コンピューター読み取り可能な媒体。
前記１つ以上のワードグループの種類は、前記インターフェースを使用するユーザーによって選択される、請求項１６の非一時的コンピューター読み取り可能な媒体。
前記非表示処理されていない単語の組は、前記インターフェースにおける前記１つ以上の単語の前記表現とのユーザーの相互作用に基づいて前記インターフェースの動的生成中に決定された１つ以上の単語を含む、請求項１５の非一時的コンピューター読み取り可能な媒体。
前記非表示処理されていない単語の組に対する前記非表示処理された単語の組の比率は、要求される補助の度合いに基づいて、改変される、請求項１５の非一時的コンピューター読み取り可能な媒体。
前記マスクは、前記対応する単語の前記コンテンツに基づいて形を決定される、請求項１５の非一時的コンピューター読み取り可能な媒体。
前記音声ファイルの前記コンテンツの前記聴覚的表現における無音領域の組を決定することであって、前記無音領域の組は、前記聴覚的表現に関連付けられた自然な無音領域である、ことと、
前記コンテンツの前記聴覚的表現における前記無音領域の決定された組の長さを延ばすことと
を行うための命令をさらに含む、請求項１５の非一時的コンピューター読み取り可能な媒体。