JP6596511B2

JP6596511B2 - デジタルグラフィックノベルの自動翻訳

Info

Publication number: JP6596511B2
Application number: JP2017556883A
Authority: JP
Inventors: ハートレル，グレッグ・ドン; ゴーシュ，デバジット; ボーン−ベイル，マシュー; リブリン，ジョン・マイケル; コンボイ，ガース; グ，シンシン; トシェフ，アレキサンダー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-09-23
Filing date: 2016-08-09
Publication date: 2019-10-23
Anticipated expiration: 2036-08-09
Also published as: US9881003B2; WO2017052820A1; EP3353675A1; CN107615269A; US20170083511A1; US20180107658A1; JP2018529133A

Description

１．技術分野
本明細書中に記載の主題は概してデジタルグラフィックノベルに関し、特にデジタルグラフィックノベルコンテンツの自動翻訳を提供することに関する。

２．背景情報
電子書籍（「ｅブック」）は、国際デジタル出版フォーラム電子出版（ＥＰＵＢ）標準およびポータブルドキュメントフォーマット（ＰＤＦ）などのさまざまな形式で提供されている。ｅブックは、専用の書籍リーダ（reading device）、汎用移動体装置、タブレットコンピュータ、ラップトップコンピュータ、およびデスクトップコンピュータなどのさまざまな装置を用いて読むことができる。各々の装置は、ｅブックをユーザに表示する読書ソフトウェア（「ｅリーダ」）を含む。

グラフィックノベルは、伝統的に印刷媒体を通じて配布される目で見る物語の形態である。しかしながら、発行者は、特に電話機およびタブレットなどのｅリーダを用いたデジタル消費向けにこのコンテンツを提供することがますます多くなっている。そのようなデジタルグラフィックノベルコンテンツは幅広い管轄区域で入手可能であり、多数の言語のグラフィックノベルに対する需要がある。典型的に、グラフィックノベルの翻訳版を提供するには、下にある画像を変更する必要がある。結果的に、発行者および著者が公式翻訳版を市場に投入することができるよりも前に、無許可販売者が未ライセンスの翻訳を入手可能にしてしまうことが多い。

要約
以上および他の課題は、方法、電子装置、および一時的でないコンピュータ読み取り可能記憶媒体によって対処される。１つの実施形態では、方法は、デジタルグラフィックノベルコンテンツを受信することと、グラフィックノベルコンテンツの特徴を同定することとを含む。特徴は、テキストを含む少なくとも１つの特徴を含む。方法は、同定される特徴に基づいて、テキストを含む少なくとも１つの特徴に対応する文脈情報を生成することも含む。方法は、少なくとも１つの特徴に含まれるテキストを翻訳して翻訳テキストを作成することをさらに含み、翻訳は文脈情報によって支援される。

１つの実施形態では、電子装置は、実行可能なコンピュータプログラムコードを記憶する一時的でないコンピュータ読み取り可能記憶媒体と、コードを実行するための１つ以上のプロセッサとを含む。実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつグラフィックノベルコンテンツの特徴を同定するための命令を含む。特徴は、テキストを含む少なくとも１つの特徴を含む。実行可能なコンピュータプログラムコードは、同定される特徴に基づいて、テキストを含む少なくとも１つの特徴に対応する文脈情報を生成するための命令も含む。実行可能なコンピュータプログラムコードは、少なくとも１つの特徴に含まれるテキストを翻訳して翻訳テキストを作成するための命令をさらに含み、翻訳は文脈情報によって支援される。

１つの実施形態では、一時的でないコンピュータ読み取り可能記憶媒体は、実行可能なコンピュータプログラムコードを記憶する。実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつグラフィックノベルコンテンツの特徴を同定するための命令を含む。特徴は、テキストを含む少なくとも１つの特徴を含む。実行可能なコンピュータプログラムコードは、同定される特徴に基づいて、テキストを含む少なくとも１つの特徴に対応する文脈情報を生成するための命令も含む。実行可能なコンピュータプログラムコードは、少なくとも１つの特徴に含まれるテキストを翻訳して翻訳テキストを作成するための命令をさらに含み、翻訳は文脈情報によって支援される。

１つの実施形態に従う、グラフィックノベルにコンピュータ支援ナビゲーションを提供するのに好適な、ネットワーク化コンピューティング環境を示す高レベルブロック図である。１つの実施形態に従う、図１のネットワーク化コンピューティング環境で用いるためのコンピュータの例を示す高レベルブロック図である。図１に示されるグラフィックノベルコーパス（corpus）の１つの実施形態を示す高レベルブロック図である。図１に示されるグラフィックノベル分析システムの１つの実施形態を示す高レベルブロック図である。図１に示されるグラフィックノベル配信システムの１つの実施形態を示す高レベルブロック図である。図１に示される書籍リーダ（reader device）の１つの実施形態を示す高レベルブロック図である。１つの実施形態に従う、デジタルグラフィックノベルの自動翻訳を提供する方法を示すフローチャートである。１つの実施形態に従う、図７の方法で用いるための予測モデルを構築する方法を示すフローチャートである。１つの実施形態に従う、フィードバックに基づいて予測を検証する方法を示すフローチャートである。１つの実施形態に従う、同定される特徴から生成される文脈情報を用いて翻訳を支援する方法を示すフローチャートである。

詳細な説明
発行者は、デジタルに入手可能なグラフィックノベルコンテンツの量を増やしている。１９世紀にまで遡るグラフィックノベル、漫画本、およびコミックストリップの幅広い印刷全集も存在する。ある歴史家は、ローマのトラヤヌスの円柱およびバイユーのタペストリーなどの古代文明が作った芸術作品が本質的には同じ芸術の形態であると議論すらしている。便宜上、本明細書中では、話の流れのある一連の順序付けられた画像を備える任意のそのようなコンテンツを指すのにグラフィックノベルという用語を用いる。

グラフィックノベルを読むことは、テキストベースの書籍を読むこととは異なる。現地に特有の読み順で（たとえば、英語圏の国では左から右へおよび上から下へ）読まれるテキストを主に通じて物語を語るよりもむしろ、グラフィックノベルの話は、（パネルとも称される）順序付けられた画像と吹き出しとの組合せを通して伝えられる。場合によっては、吹き出しは複数のパネルに重なる。さらに、ある事例（たとえば、多くの日本語のグラフィックノベル）では、テキストは右から左および上から下に読まれる。これらの要因は、グラフィックノベルの自動（または半自動）翻訳を提供する際の特定の課題となる。正確な翻訳を提供するには、語または句の文脈が重要であることが多い。そのため、パネルおよび吹き出しの意図される順序を知っておくと、正しい順序で対話を分析できるようになるので、高品質の翻訳の作成を支援することができる。さらに、グラフィックノベル中の画像の他の特徴は、翻訳を支援する付加的な文脈情報を提供することがある。語または句を２とおり（以上）に翻訳できる場合、対応の画像中の特定のキャラクタまたはオブジェクトの存在により、他の翻訳に対するある翻訳の可能性が高くなることがある。たとえば、英単語の「bow」は、一種の結び目、武器、身体的行為、または船の一部である可能性がある。語を含む画像がこれらのもののうち１つを描いていれば、それが正しい翻訳である可能性がある。

システム概要
図（図）および以下の説明は例示のためにのみある実施形態を説明する。当業者は、以下の説明から、本明細書中に記載の原則から逸脱することなく、本明細書中に示される構造および方法の代替的な実施形態を用い得ることを容易に認識するであろう。ここでいくつかの実施形態を参照し、その例を添付の図に示す。実践可能な場合はどこでも、図で同様のまたは同じ参照番号を用いることがあり、同様のまたは同じ機能性を示すことがあることを注記する。

図１は、デジタルグラフィックノベルの自動（または半自動）翻訳を提供するのに好適なネットワーク化コンピューティング環境１００の１つの実施形態を示す。示されるように、環境１００は、グラフィックノベルコーパス１１０、グラフィックノベル分析システム１２０、グラフィックノベル配信システム１３０、および書籍リーダ１８０を含み、そのすべてはネットワーク１７０を介して接続される。ネットワーク化コンピューティング環境１００の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。

グラフィックノベルコーパス１１０は、グラフィックノベルのデジタル表示を記憶する。デジタル表示は、ＥＰＵＢまたはＰＤＦなどの任意の適切な形式を用いることができる。さまざまな実施形態では、デジタル表示は、発行者および著者によって予め作られて、既存の印刷済グラフィックノベルをスキャンすることによって作成されて、またはこれらの技術の組合せを用いてコンパイルされて、提供される。グラフィックノベルコーパス１１０を図３を参照して以下に詳細に説明する。

グラフィックノベル分析システム１２０は、機械学習技術を適用してデジタルグラフィックノベル内の特徴を同定するためのモデルを構築しかつ適用する。グラフィックノベル分析システム１２０は、テキストを含む同定される特徴の翻訳も提供する。１つの実施形態では、特徴は、パネルおよび吹き出しの場所と意図される読み順とを含む。同定されるテキストのより大きな文脈を提供することにより、意図される順序を用いて当該テキストの翻訳を支援する。他の実施形態では、特徴は、付加的にまたは代替的に、描かれるキャラクタ、描かれるオブジェクト（たとえば、扉、武器など）、イベント（たとえば、プロット、キャラクタ間の関係など）、雰囲気、１つのパネルと次のパネルとの間の所望の視覚的遷移（たとえば、パン、ズームアウト、およびズームインなど）、描かれる天気、ジャンル、右から左への（ＲＴＬ）読み方、広告などを含む。これらの特徴の多くはグラフィックノベルに独特のものである。たとえば、テキストベースの書籍には著者がいるが、作画者はおらず、グラフィックノベルコンテンツの画像の中に描かれるキャラクタまたはオブジェクトを同定することは、同じものをテキスト中に同定することとは大きく異なる。同様に、テキストベースの書籍のページは左から右および上から下に読まれる一方で、グラフィックノベルは典型的に、順に読まれるページあたりのいくつかのパネルとパネルあたりのいくつかの吹き出しとを含有し、意図される読み順は、読み手の注意がページのあちこちに飛ぶことを求める。

ある事例では、グラフィックノベル分析システム１２０は、デジタルグラフィックノベルのある特徴の同定を用いてテキストの翻訳を補助する。たとえば、１つの実施形態では、グラフィックノベル分析システム１２０がパネル中の特定のキャラクタを同定すると、これは、そのキャラクタ向けに設計された機械翻訳アルゴリズムを適用する。このキャラクタ特有のアルゴリズムは、キャラクタに関連付けられるよく使われる句の一覧を、準備されたその句の翻訳とともに含むことができる。機械翻訳アルゴリズムを機械学習して、そのキャラクタに関連付けられる正確な（just）対話のトレーニングセットから展開してもよい。グラフィックノベル分析システム１２０を図４を参照して以下に詳細に説明する。

グラフィックノベル配信システム１３０は、グラフィックノベルコンテンツと、グラフィックノベルコンテンツをどのように提示すべきかを示す提示メタデータとを含むパッケージ化グラフィックノベルを作成する。実施形態の１つの組では、グラフィックノベル配信システム１３０は、パッケージ化プロセスの一部としてグラフィックノベルコンテンツを翻訳する。１つのそのような実施形態では、提示メタデータは、同定される特徴と、同定される特徴の場所と、グラフィックノベル分析システム１２０が出力するようなパネル／吹き出しの意図される読み順とを含む。別のそのような実施形態では、グラフィックノベル配信システム１３０は、グラフィックノベル分析システム１２０からの出力を処理して、推奨される提示態様を判断する。この実施形態では、提示メタデータは、順序付けられた提示命令の一覧（たとえば、パネル１を全画面表示し、次にパネル２にパンし、かつ吹き出し１にズームインし、次にパネル２を全画面表示するようにズームアウトし、次に吹き出し２にズームインするなど）を含む。

実施形態の別の組では、提示メタデータは、別の装置（たとえば書籍リーダ１８０）による翻訳を補助するメタデータを含む。１つのそのような実施形態では、提示メタデータは、同定される特徴、同定される特徴の場所、およびパネル／吹き出しの意図される読み順と、グラフィックノベル分析システム１２０が出力するような各々の吹き出しのコンテンツのプレーンテキスト表示とを含む。別のそのような実施形態では、提示メタデータは、吹き出し内にないグラフィックノベルコンテンツ中に含まれるテキスト（たとえば、標識（signs）上のテキスト、音響効果の視覚的誇張表現（emote）など）の場所およびプレーンテキスト表示も含む。グラフィックノベル配信システム１３０を図５を参照して以下に詳細に説明する。

書籍リーダ１８０は、デスクトップＰＣ、ラップトップ、スマートフォン、タブレット、専用書籍リーダなどの、デジタルグラフィックノベルをユーザに提示することができる任意のコンピューティングデバイスであることができる。書籍リーダ１８０を３つだけ示すが、実際には、ネットワーク１７０を用いて環境１００の他の構成要素と通信することができる多数の（たとえば何百万台もの）書籍リーダ１８０が存在する。１つの実施形態では、クライアント装置１８０は、グラフィックノベル配信システム１３０からパッケージ化デジタルグラフィックノベルを受信し、含まれる提示メタデータに従ってこれをユーザに提示する。例示的な書籍リーダ１８０を図６を参照して以下に詳細に説明する。

ネットワーク１７０は、ネットワーク化コンピューティング環境１００の構成要素が互いと通信できるようにする。１つの実施形態では、ネットワーク１７０は、標準的な通信技術および／またはプロトコルを用い、インターネットを含むことができる。このように、ネットワーク１７０は、イーサネット（登録商標）、８０２．１１、マイクロ波アクセスに関する世界的相互運用（ＷｉＭＡＸ）、２Ｇ／３Ｇ／４Ｇ移動体通信プロトコル、デジタル加入者線（ＤＳＬ）、非対称転送モード（ＡＴＭ）、インフィニバンド（InfiniBand）、ＰＣＩエクスプレスアドバンストスイッチングなどの技術を用いたリンクを含むことができる。同様に、ネットワーク１７０上で用いられるネットワーク化プロトコルは、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、シンプルメール転送プロトコル（ＳＭＴＰ）、ファイル転送プロトコル（ＦＴＰ）などを含むことができる。ネットワーク１１０上で交換されるデータを、２値形態の画像データを含む技術および／または形式（たとえば、ポータブルネットワークグラフィック（Portable Network Graphics）（ＰＮＧ））、ハイパーテキストマークアップ言語（ＨＴＭＬ）、拡張可能マークアップ言語（ＸＭＬ）、ポータブルドキュメントフォーマット（ＰＤＦ）、電子出版（ＥＰＵＢ）などを用いて表示することができる。さらに、リンクのうちすべてまたは一部を、セキュアソケットレイヤ（ＳＳＬ）、トランスポート層セキュリティ（ＴＬＳ）、仮想私設ネットワーク（ＶＰＮ）、インターネットプロトコルセキュリティ（ＩＰｓｅｃ）などの従来の暗号化技術を用いて暗号化することができる。別の実施形態では、ネットワーク１７０上のエンティティは、上述のものの代わりにまたは上述のものに加えて、カスタムおよび／または専用データ通信技術を用いることができる。

図２は、ネットワーク化コンピューティング環境１００で用いるのに好適なコンピュータ２００の１つの実施形態を示す高レベルブロック図である。チップセット２０４に結合される少なくとも１つのプロセッサ２０２を示す。チップセット２０４は、メモリコントローラハブ２５０と入出力（Ｉ／Ｏ）コントローラハブ２５５とを含む。メモリ２０６とグラフィックアダプタ２１３とはメモリコントローラハブ２５０に結合され、表示装置２１８はグラフィックアダプタ２１３に結合される。記憶装置２０８、キーボード２１０、ポインティングデバイス２１４、およびネットワークアダプタ２１６は、Ｉ／Ｏコントローラハブ２５５に結合される。コンピュータ２００の他の実施形態は、異なるアーキテクチャを有する。たとえば、メモリ２０６は、ある実施形態ではプロセッサ２０２に直接に結合される。

記憶装置２０８は、ハードドライブ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、ＤＶＤ、または固体状態メモリデバイスなどの１つ以上の一時的でないコンピュータ読み取り可能記憶媒体を含む。メモリ２０６は、プロセッサ２０２が用いる命令およびデータを保持する。ポインティングデバイス２１４は、キーボード２１０と組合せて用いられてデータをコンピュータシステム２００に入力する。グラフィックアダプタ２１３は、表示装置２１８上に画像および他の情報を表示させる。ある実施形態では、表示装置２１８は、ユーザ入力および選択を受けるためのタッチ画面能力を含む。ネットワークアダプタ２１６は、コンピュータシステム２００をネットワーク１１０に結合する。コンピュータ２００のある実施形態は、図２に示されるものとは異なるまたはそれに付加的な構成要素を有する。たとえば、グラフィックノベル分析システム１２０を、本明細書中に記載の機能を提供するようにともに動作する複数のコンピュータ２００から形成することができる。別の例として、クライアント装置１８０はスマートフォンであることができ、画面上キーボード２１０およびポインティングデバイス２１４機能性を提供するタッチ画面を含むことができる。

コンピュータ２００は、本明細書中に記載される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書中で用いるように、「モジュール」という用語は、特定される機能性を提供するのに用いられるコンピュータプログラム命令または他の論理を指す。このように、モジュールを、ハードウェア、ファームウェア、またはソフトウェア、またはその組合せで実現することができる。１つの実施形態では、実行可能なコンピュータプログラム命令から形成されるプログラムモジュールは、記憶装置２０８上に記憶され、メモリ２０６中にロードされ、かつプロセッサ２０２によって実行される。

例示的なシステム
図３は、グラフィックノベルコーパス１１０の１つの実施形態を示す。示されるように、グラフィックノベルコーパス１１０は、グラフィックノベルコンテンツ３１０と発行者メタデータ３２０とを含む。グラフィックノベルコーパス１１０の他の実施形態は、異なるまたは付加的な構成要素を含む。たとえば、グラフィックノベルコンテンツ３１０と発行者メタデータ３２０とを別個のエンティティとして示すが、コンテンツとメタデータとの両方に単一のデータ記憶を用いてもよい。

グラフィックノベルコンテンツ３１０は、コーパス１１０中のグラフィックノベルのページの画像を含み、１つ以上の一時的でないコンピュータ読み取り可能記憶媒体上に記憶される。前述のように、発行者および著者が直接にグラフィックノベルコンテンツ３１０を提供することができる、または既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ３１０を入手することができる。１つの実施形態では、グラフィックノベルコンテンツ３１０は、完全なグラフィックノベルのＰＤＦ文書を含み、ＰＤＦの各ページはグラフィックノベルのページの画像を含む。これに代えて、ＰＤＦの各ページは、単一のパネルまたは見開き２ページなどの、グラフィックノベルの１ページ超または未満を含んでもよい。別の実施形態では、グラフィックノベルコンテンツ３１０は、固定レイアウトＥＰＵＢファイルとして記憶される。当業者は、グラフィックノベルコンテンツ３１０を記憶することができる他の形式を認めるであろう。

発行者メタデータ３２０は、題名、発行日、著者、作画者、発行者、シリーズ、主要キャラクタなどのグラフィックノベルについての情報を含む、グラフィックノベル発行者または著者が提供するメタデータである。既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ３２０を生成する実施形態では、発行者メタデータが存在しないことがある。これに代えて、印刷済グラフィックノベルをスキャンする個人またはエンティティは、（たとえば、スキャンのプロセスの一部として電子形態でタイピングすることによって）発行者メタデータ３２０を提供することができる。

図４は、グラフィックノベル分析システム１２０の１つの実施形態を示す。示されるように、グラフィックノベル分析システム１２０は、トレーニングモジュール４１０、予測モジュール４２０、検証モジュール４３０、および予測モデル記憶４４０を含む。グラフィックノベル分析システム１２０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載されるのとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、グラフィックノベル分析システム１２０は、予測モデル記憶４４０を含まなくてもよく、代わりにグラフィックノベルコーパス１１０に予測モデルを記憶する。別の例として、クラウドソーシングによるフィードバックを用いる実施形態では、検証モジュール４３０によるものである機能性の一部またはすべてをユーザ装置１８０のフィードバックモジュール６２０によって提供してもよい。

トレーニングモジュール４１０は、グラフィックノベルのトレーニングセットから機械学習モデルを構築する。デジタルグラフィックノベルコンテンツに適用されると、モデルは、その中に含まれる特徴を予測する。１つの実施形態では、トレーニングモジュール４１０は、ランダムにコーパス１１０からデジタルグラフィックノベルのサブセットを選択してトレーニングセットとして用いる。他の実施形態では、サブセットは発行者メタデータ３２０に基づく。たとえば、トレーニングモジュール４１０は、１つ以上の特徴（たとえば、作画者、発行者、キャラクタなど）についてのある範囲の値を含めて、初期モデルが未知のグラフィックノベル中のそれらの特徴を正確に同定する確率を上昇させるようにサブセットを選択し得る。１つのそのような実施形態では、発行者メタデータを用いて、グラフィックノベルであるデジタル刊行物を同定し、（たとえば、ダウンロード数に基づいて）人気のあるグラフィックノベルのセットを同定し、右から左への読み方を含むか否かに基づいて（たとえば、発行者メタデータに基づいて）当該セットを２つの群に分割し、各群からいくつかのグラフィックノベルをランダムに選択することによってサブセットをポピュレートする。さらなる実施形態では、トレーニングセットを手作業で選択してトレーニングモジュール４１０に与える。また別の実施形態では、トレーニングデータを参加ユーザからクラウドソーシングして、これによりトレーニングセットは、参加ユーザが読むことを選ぶ、コーパス１１０からのデジタルグラフィックノベルとなる。

トレーニングモジュール４１０は、教師トレーニング段階で用いるためのトレーニングセットを準備する。１つの実施形態では、トレーニングモジュール４１０は、トレーニングセット中のデジタルグラフィックノベルから（たとえば、個別のページに対応する）原画像を抽出する。他の実施形態では、トレーニングモジュール４１０は画像処理を行なう。１つのそのような実施形態では、トレーニングモジュール４１０は、各々の原画像の寸法を測り、トレーニングセット中の各々の画像が均一な大きさとなるようにリサイズ演算を適用する。トレーニングモジュール４１０は、（たとえば、スキャンの際の誤差により）画像が傾いているかどうかも判断し、必要に応じて傾き補正を適用する。他の実施形態では、自動コントラスト機能を適用する、均一平均明るさへ正規化する、自動カラーバランシングを行なうなどの、付加的なまたは異なる画像処理を現画像に適用する。

トレーニングセットがどのように準備されても、トレーニングモジュール４１０はこれを用いて初期特徴同定モデルを構築する。実施形態の１つの組では、トレーニングモジュール４１０は、教師トレーニング段階で初期モデルを構築する。１つのそのような実施形態では、人のオペレータは、グラフィックノベルのページの画像を見せられ、パネルおよび吹き出しの場所および順序を示すよう促される。たとえば、オペレータは、ポインティングデバイスを用いて各パネルの周を順序立ててなぞり、ボタンを選択して吹き出しに移動し、各々の吹き出しの周を順になぞり得る。別の実施形態では、オペレータは、閉じたセット（たとえば、非吹き出しテキストの実体（instances）、描かれているかもしれないキャラクタの一覧など）から画像に含まれる他の特徴を選択するようにも依頼される。さらなる実施形態では、オペレータは、自由形式を用いてタグを付与することができる。（たとえば、クラウドソーシングを用いる）また別の実施形態では、オペレータは単に、従来のリーダを用いて行なうようにデジタルグラフィックノベルを読む。オペレータは、スクロール、ズーム、およびページめくりなどのナビゲーションコマンドを用いてグラフィックノベルを読み、トレーニングモジュール４１０は、オペレータが発するナビゲーションコマンドを記録する。同じグラフィックノベルを読みながら複数のオペレータが行なうナビゲーションの選択を集めることにより、トレーニングモジュール４１０は、将来の読み手がどのようなコンテンツの提示のされ方をより好むであろうかについての予測モデルを構築することができる。用いられる正確な方法論に拘らず、結果的に、人が同定する特徴を示すメタデータと対にされた一連の画像が得られる。

実施形態の別のセットでは、初期モデルの一部またはすべてを発行者メタデータから構築する。１つのそのような実施形態では、トレーニングセットは、描かれるキャラクタ、著者、作画者、パネルおよび吹き出しの意図される読み順などのある特徴を同定する発行者メタデータを既に含むデジタルグラフィックノベルを含む。このように、トレーニングモジュール４１０は、印刷済グラフィックノベルをスキャンすることによって作製されるものなどの、対象の特徴を同定する発行者メタデータを含まないデジタルグラフィックノベルに適用することができる発行者メタデータからモデルを構築することができる。

トレーニングモジュール４１０は、一連の画像と、対にされたメタデータとから初期モデルを構築する。ある実施形態では、モデルは、１つ以上の層の中のノードのセットからなる人工神経回路網である。各ノードは、所与の特徴が入力された画像の中に存在するか否かを予測するように構成され、各層の中のノードは、先の層の中のノードよりも低レベルの抽象度に対応する。たとえば、第１の層の中のノードは、入力された画像が１ページまたは２ページに対応するか否かを判断してもよく、第２の層の中のノードは各ページ中のパネルを同定してもよく、第３の層の中のノードは各パネルの中の吹き出しを同定してもよい。同様に、第１の層のノードはキャラクタの存在を判断してもよく、第２の層のノードはキャラクタのアイデンティティを判断してもよく、第３の層のノードは、（たとえば、キャラクタのアーク中の特に重要なイベントの前または後の）そのキャラクタの特定の時代を判断してもよい。１つの実施形態では、モデルを構築する際にも発行者メタデータを用いる。たとえば、特定のヒーローの存在は、異なる発行者のグラフィックノベルで典型的に見られる異なる悪役よりもむしろ、そのヒーローの強敵が存在する可能性を高める。他の実施形態では、グラフィックモデルなどの他の種類のモデルを用いる。当業者は、一連の画像と対にされたメタデータとから構築されて他の画像の特徴を予測することができる他の種類のモデルを認識し得る。

１つの実施形態では、トレーニングモジュール４１０は、２段階プロセスを用いて初期モデルを構築する。第１の段階では、入力された画像は、対象の特徴を含むための候補である、画像中の固定された数の領域（たとえば１００）を同定する神経回路網を通される。第２の段階では、同定された領域は、対象の特徴のアイデンティティの予測と予測の正しさの対応の確率とを生成する第２の神経回路網を通される。トレーニングモジュール４１０は次に、予測された特徴のセットを、入力された画像について人が同定した特徴のセットに変形するコストを算出する。

モデルを更新するため、トレーニングモジュール４１０は、算出された変形コストに基づいて逆伝播アルゴリズムを適用する。アルゴリズムは、神経回路網を通してコスト情報を伝播させ、ノードの重み付けを調整して、入力された画像の特徴を同定する将来的な試みに関連付けられるコストを低減する。たとえば、人が提供する特徴が、特定のキャラクタが画像の中に存在することを含みかつキャラクタが８０％の確実さで存在すると神経回路網が予測する場合、相違（または誤差）は２０％である。１つの実施形態では、トレーニングモジュール４１０は、コストを最小化するように、傾斜降下法を適用して、各ノードに適用される重み付けを繰返し調整する。ノードの重み付けは少量ずつ調整され、結果的に得られる変形コストの低減（または増大）を用いて、コスト関数の傾斜（すなわち、ノードの重み付けに対してコストが変化する率）を算出する。トレーニングモジュール４１０は次に、（傾斜が方向を変えるコスト関数中の変曲点が示す）極少を見出すまで、傾斜が示す方向のノードの重み付けをさらに調整する。換言すると、ノード重み付けは、神経回路網が学習して時間とともにより正確な予測を生成するように調整される。

予測モジュール４２０は、トレーニングセットの一部ではなかったグラフィックノベルコーパス１１０からの未トレーニング画像に機械学習モデルを適用する。機械学習モデルは、未トレーニング画像中に含まれる特徴の予測を生成する。１つの実施形態では、未トレーニング画像は数値マッピングに変換される。数値マッピングは、各々が画像の性質を表わす一連の整数値を含む。たとえば、マップ中の整数は、さまざまな色の優位性、縦方向または横方向に色が変化する平均的頻度、平均明るさなどを表わし得る。別の実施形態では、マッピングは、画像中のオブジェクトの座標、確率などの連続した量を表わす実数値を含む。当業者は、画像を数値マッピングに変換可能なさまざまなやり方を認識するであろう。

１つの実施形態では、予測モジュール４２０は、数値マッピングを入力として神経回路網に与える。第１の層で開始して、ノードは、入力された画像（たとえば、数値マップまたはその一部）に基づいて入力されたデータを受信する。各々のノードは、それが受信する入力データを分析して、それが検出する特徴が入力された画像の中に存在する可能性があるか否かを判断する。特徴が存在すると判断すると、ノードは活性化する。活性化されたノードは、活性化されたノードの重み付けに基づいて入力データを修正し、修正された入力データを神経回路網の次の層の１つ以上のノードに送る。神経回路網中の終端ノードが活性化されると、神経回路網は、その終端ノードに対応する特徴が入力画像の中に存在するという予測を出力する。１つの実施形態では、神経回路網を通じて取った経路に沿って各ノードに割当てられる重み付けに基づいて予測の正しさの百分率確度が予測に割当てられる。

予測モジュール４２０は、テキストを含むと予測された同定される特徴からテキストも抽出する。１つの実施形態では、予測モジュール４２０は、各々の吹き出しに光学式文字認識（ＯＣＲ）アルゴリズムを適用して、その中に示されるテキストを機械可読形態に変換する。パネルおよび吹き出しの予測される順序が与えられると、予測モジュール４２０（またはグラフィックノベル配信システム１３０などの別のエンティティ）は、機械可読テキストを予測された意図される読み順に配置することができる。別の実施形態では、予測モジュール４２０は、パネルに含まれる非吹き出しテキストにもＯＣＲアルゴリズムを適用する。非吹き出しテキストは、高度に様式化されている（たとえば、落書き、行為の誇張表現など）、および／または遠近法の効果（perspetive effects）（たとえば、「カメラ」に対して鋭角であるオブジェクトの側のテキスト）によって歪められていることが多い。予測モジュール４２０は、ＯＣＲアルゴリズムを適用する前に、遠近法の効果による歪みを推定してこれを考慮するなどの付加的な画像処理を適用してもよい。さらに、ＯＣＲアルゴリズムは、パネルの文脈（たとえば、描かれるオブジェクトおよびキャラクタ）を用いて精度を向上させることができる。たとえば、描かれるキャラクタの決まり文句は、その決まり文句のわずかな変形よりも、存在する可能性がより高い。別の例として、パネル中に描かれる行為を用いてＯＣＲを改良することができる。たとえば、キャラクタが殴られているのをパネルが描いていれば、パネル中の行為の誇張表現は、（ボカッ、バシッ、バンなどの）語の短い一覧のうち１つを含む可能性がある。ある実施形態では、予測モジュール４２０がテキストを含むと同定しているがそれについてのＯＣＲがうまくいかない画像の区域にフラグを立てて、人のオペレータがこれを見直し、オペレータは、テキストが存在しないと示す、描かれるテキストを提供する、またはテキストの翻訳を提供する、ことができる。

検証モジュール４３０は、予測モジュール４２０が生成する画像の予測された特徴をユーザに提示し、ユーザは、予測された特徴の精度を示す検証情報を与える。１つの実施形態では、検証モジュール４３０は、正しいという確率が比較的低いもの、または特に重要であると考えられるもの（たとえば、主要キャラクタのアイデンティティ）などの、特に関心のある特徴をユーザに提示する。検証モジュール４３０は次に、提示された予測された特徴の精度を確認するようユーザを促す。たとえば、検証モジュール４３０は、画面上に予測された特徴（たとえば、キャラクタ、パネル、または吹き出し）を囲む輪郭線をつけて入力画像を表示し、１つは予測を正しいとして確認するものと、１つは予測が誤っていることを示すものとの２つのコントロールを与えてもよい。このように、検証情報は、予測が正しいか誤っているかの２値の指示である。他の実施形態では、検証モジュール４３０は、ユーザが、どのようにまたはなぜ予測が誤っているかを示す付加的な検証情報を与えるまたは修正された特徴情報を与えることができるようにするさらなるコントロールを提供する。たとえば、パネルの場所を予測する場合、検証モジュール４３０は、予測されたパネルの輪郭線のセグメントをユーザが「ドラッグアンドドロップ」して画像中のパネルの場所をより正確に反映できるようにしてもよい。

検証モジュール４３０は、ユーザが提供する検証情報に基づいて予測を生成するのに用いられるモデルを更新する。１つの実施形態では、検証モジュール４３０は、トレーニングモジュール４１０を参照して上述したのと同様の逆伝播アルゴリズムおよび傾斜降下法を用いてモデルを更新する。別の実施形態では、検証モジュール４３０は、トレーニングモジュール４１０に否定例（すなわち、以前に予測された特徴を含まないと確認された画像）を与え、トレーニングモジュールは、これらの否定例を用いて、さらなるトレーニングを行なう。換言すると、トレーニングモジュール４１０は、ある特徴を含まないことがわかっている画像に基づいてもモデルを構築することができる。

予測モデル記憶４４０は、トレーニングモジュールが生成しかつ検証モジュール４３０が更新した予測モデルを記憶する１つ以上のコンピュータ読み取り可能記憶媒体を含む。１つの実施形態では、予測モデル記憶４４０は、グラフィックノベル分析システム１２０内のハードドライブである。他の実施形態では、予測モデル記憶４４０は、クラウド記憶設備にまたはグラフィックノベルコーパス１１０の一部としてなど、どこかに位置する。

図５は、グラフィックノベル配信システム１３０の１つの実施形態を示す。示されるように、グラフィックノベル配信システム１３０は、パッケージ化モジュール５１０、翻訳モジュール５２０、編集モジュール５３０、および配信データ記憶５４０を含む。グラフィックノベル配信システム１３０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載するのとは異なる態様で機能を構成要素間に分散させてもよい。たとえば、書籍リーダ１８０が翻訳を行なう実施形態では、翻訳モジュール５２０を省略してもよい。

パッケージ化モジュール５１０は、分析システム１２０が行なう分析に基づいてグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する。提示メタデータは、機械学習モデルが出力する特徴予測から生成される。前述のように、さまざまな実施形態では、提示メタデータは、特徴ならびに対応の場所および読み順（適切な場合）の一覧、パンおよびズーム命令などのどのようにグラフィックノベルコンテンツを提示すべきかに関する具体的な命令、または両者の組合せを含む。提示メタデータは、グラフィックノベルコンテンツから抽出したテキストも含む。

１つの実施形態では、パッケージ化モジュール５１０は、一連の順序付けられた画像（たとえば、グラフィックノベルのページあたり１枚の画像）と各画像に対応する提示メタデータとを含む、パッケージ化デジタルグラフィックノベル（たとえば、ＰＤＦ、またはＥＰＵＢ領域ベースナビゲーション１．０標準に準拠するものなどの固定レイアウトＥＰＵＢファイル）を作成する。所与の画像のメタデータは、デジタルグラフィックノベル分析システム１２０が同定するその画像の特徴を同定し、パネルおよび吹き出しの場所と読み順とを含む。メタデータは、吹き出しについて予測された順序での、吹き出しに含まれるテキストのプレーンテキスト表示も含む。別の実施形態では、メタデータは、吹き出しであるとは予測されなかったパネルの部分から抽出されるテキスト（たとえば、画像中の標識からのテキスト）と、その画像中のテキストの場所の指示とをさらに含む。他の実施形態では、特徴は、代替的にまたは付加的に、キャラクタ、雰囲気、天気、オブジェクト、作画者、著者、発行の年または時代などを含む。

さらなる実施形態では、提示メタデータは、特徴のうちいくつかまたはすべてを明示的に同定するよりもむしろ、どのように書籍リーダ１８０が画像を提示すべきかを記述する。たとえば、提示メタデータは、吹き出しの場所および順序を同定する代わりに、所望の順にユーザの注意が吹き出しに向けられるように、ズームレベルの変更のセットおよび閲覧窓の中心を記述することができる。提示のさまざまな方法を図６を参照して以下に詳細に説明する。

翻訳モジュール５２０は、グラフィックノベルコンテンツ中に同定されるテキストを他の言語に翻訳する。翻訳モジュール５２０は、予測モジュール４２０が同定した特徴を活かして（leverage）翻訳を改良する。１つの実施形態では、翻訳モジュール５２０は、提示メタデータを更新または補足してテキストの翻訳を含める。ある実施形態では、書籍リーダ１８０が翻訳機能性を果たすことに留意されたい。ある実施形態では、書籍リーダ１８０は、提示メタデータを更新するよりもむしろ、翻訳テキストをローカルに（たとえばＲＡＭに）記憶してもよい。

１つの実施形態では、翻訳モジュール５２０は、吹き出しから抽出した機械可読テキストに機械翻訳アルゴリズムを適用する。予測された意図される読み順は、翻訳を支援する文脈情報を提供する。たとえば、一対の吹き出しが質問と答えとを含む場合、質問の内容が答えの翻訳を知らせることができ、その逆も然りである。この具体例として、答えが矢を放つと参照する場合、質問の中の「bow」という語は、結んだリボンではなく、矢を放つためのオブジェクトを参照する可能性がある。他の実施形態では、代替的にまたは付加的に他の予測された特徴を用いて翻訳を支援する。たとえば、パネル中に特定のキャラクタが同定されると、キャラクタの決まり文句および話し方を考慮してそのパネル中のテキストを翻訳することができる。１つのそのような実施形態では、用いられる機械翻訳アルゴリズムは、特定のキャラクタを含むコンテンツ、特定の著者によるコンテンツ、特定の発行者からのコンテンツなどのうち１つ以上の翻訳向けに誂えられる。別の実施形態では、パネル中に描かれる行為を用いて視覚的誇張表現の翻訳を支援する。たとえば、キャラクタが殴られているのをパネルが描いていれば、近くの視覚的誇張表現を殴打音の適切な語に翻訳することができる。

翻訳モジュール５２０が非吹き出しテキストを翻訳する実施形態では、翻訳モジュール５２０は、吹き出しテキストを参照して上述したような文脈情報を同様に用いる。たとえば、パネル中に描かれる標識上のテキストを翻訳する場合、翻訳モジュール５２０は、そのパネル中に含まれる吹き出し全部の中のテキストと、描かれる他のキャラクタおよびオブジェクトとを考慮し得る。より具体的な例として、パネルが特定のキャラクタを描きかつ吹き出しの中のテキストが特定の街を参照する場合、パネル中の標識の上のテキストは、無関係の場所よりもその街の場所に対応する可能性がより高い。

編集モジュール５３０を含む実施形態では、これは、ユーザ（たとえば、著者または発行者）がパッケージ化デジタルグラフィックノベルに含まれる提示メタデータを見直すおよび改定するツールを提供する。１つのそのような実施形態では、編集モジュール５３０は、対応の翻訳テキストとともに、ユーザがデジタルグラフィックノベル中の画像を選択しかつ閲覧できるようにするブラウザを提供する。ユーザが画像を選択すると、ブラウザは、検出されたテキストオブジェクト（たとえば吹き出し）の指示とともに、画像を表示する。ユーザがテキストオブジェクトを選択すると、編集モジュール５３０は対応のテキストの翻訳を表示し、ユーザが（たとえば、キーボードを用いて訂正をタイプすることによって）翻訳を編集できるようにする。次に応じて提示メタデータを編集する。

配信データ記憶５４０は、パッケージ化デジタルグラフィックノベルを記憶する１つ以上のコンピュータ読み取り可能媒体である。ある実施形態では、配信データ記憶５４０は、デジタルグラフィックノベル配信システムのための機能を提供するサーバファームに位置する。１つのそのような実施形態では、配信システムは、（たとえば、ユーザプロファイルの一部として提供されるような）ユーザの興味と、提示メタデータが同定するグラフィックノベルの特徴との間の相関に基づいてデジタルグラフィックノベルをユーザに勧める。たとえば、ユーザがあるラインのデジタルグラフィックノベルに特定の興味を有する場合、配信システム５４０は、同じキャラクタのうちいくつかを含む異なるラインからのデジタルグラフィックノベルを勧めることがある。

以上の説明に加えて、本明細書中に記載のシステム、プログラム、または特徴がユーザ情報（たとえば、ユーザの興味、社会的ネットワーク、社会的行為または活動、職業、嗜好、現在の場所などについての情報）の収集を可能にし得るか否か、およびいつ可能にし得るかの両方についての選択をユーザが行なえるようにするコントロールをユーザに提供してもよい。コンテンツまたは通信がサーバ（たとえば、グラフィックノベル配信システム１３０）からユーザの書籍リーダ１８０に送られるか否かをユーザが制御できるようにするコントロールもユーザに提供してもよい。さらに、あるデータを、それを記憶するまたは用いる前に１つ以上のやり方で処理してもよく、これにより個人を特定できる情報が除去される。たとえば、ユーザについての個人を特定できる情報を判断することができないようにユーザのアイデンティティを処理してもよく、または、ユーザの特定の場所を判断することができないように、（市、郵便番号、または州レベルなどの）場所情報が得られるユーザの地理的場所を一般化してもよい。このように、ユーザは、ユーザについてのどの情報が収集されるか、その情報がどのように用いられるか、およびどの情報がユーザに提供されるかについてのコントロールを有してもよい。

１つの実施形態では、グラフィックノベル配信システム１３０は、著作権を侵害するデジタルグラフィックノベルを同定するためのツールも提供する。デジタルグラフィックノベルが特定のキャラクタを含有すると機械学習モデルが誤って予測すると、そのことは、実際に描かれるキャラクタが特定のキャラクタの著作権侵害になると示してしまうことがある。たとえば、競合する発行者が意図的に特定のキャラクタとほぼ同一のキャラクタを作成すると、機械学習モデルは、それを特定のキャラクタであると当初は予測する可能性がある（モデルがフィードバックを介して更新されるまで、および複製が特に甚だしい場合は、そのときですら２つを区別することが難しくなるかもしれない）。１つの実施形態では、中程度の範囲の確実さ（たとえば５０％から７０％）内の予測が潜在的な侵害としてフラグ付けされる。というのも、この範囲は、同一性についての十分な類似度が存在するが、予測においてはかなりの程度の不確実さが存在するという相違も十分あることを示すからである。フラグ付けされたキャラクタは次に、人（たとえば、被侵害の恐れがある著作権所有者の従業員）に送られて検討される。他の実施形態では、配信システム１３０は、未ライセンス翻訳を検出するための他のツールを提供する。たとえば、未ライセンス翻訳のテキストと公式自動翻訳版のテキストとの間の類似性によって未ライセンス翻訳を同定することができる。

図６は、書籍リーダ１８０の１つの実施形態を示す。示されるように、書籍リーダ１８０は、グラフィックノベル表示モジュール６１０、フィードバックモジュール６２０、およびローカルデータ記憶６３０を含む。書籍リーダ１８０の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、ある実施形態では、フィードバックモジュール６２０が省略される。

表示モジュール６１０は、それを用いてパッケージ化モジュール５１０によってパッケージ化された提示メタデータに基づいてデジタルグラフィックノベルコンテンツをユーザに提示する。さまざまな実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序ならびにそれらの吹き出し中のテキストの翻訳を示す。表示モジュール６１０は示された順序でパネルを提示して、吹き出しの中のテキストを翻訳テキストで置換える。１つのそのような実施形態では、表示モジュール６１０は、まず、書籍リーダ１８０の画面上に（提示メタデータ中に示されるような）最初のパネルを表示する。ユーザ入力（たとえば、画面をタップする、または「次パネル」アイコンを選択する）に応答して、表示モジュール６１０は、提示メタデータから次にどのパネルを表示すべきかを判断し、画面上の表示をその第２のパネルに遷移させる。（たとえば、画面をタップする、または「次パネル」アイコンを選択することによって）前に進むようにユーザが要求するたびに、表示モジュール６１０は提示メタデータを調べて、どのパネルを次に表示すべきかを判断し、それに応じて画面上の表示を更新する。パネルを順次提示するためのこの方法により、各パネルが全画面表示されるようになり、これは、画面が小さな書籍リーダ１８０では特に有用である。

各々のパネルを表示する際、表示モジュール６１０は、（原語での）吹き出し中の元のテキストを（たとえば、ユーザが要求するものなどの異なる言語の）翻訳テキストで置換える。さまざまな実施形態では、表示モジュールは、背景色（通常は白）を同定し、吹き出し全体を背景色で塗りつぶすことによって吹き出しを「真っ白にする」。表示モジュール６１０は次に、提示メタデータ中に含まれる吹き出しの翻訳テキストを吹き出しに追加する。１つの実施形態では、表示モジュール６１０は、追加されるテキストにデフォルトのフォントおよびサイズを用いる。別の実施形態では、表示モジュール６１０は、（たとえば、お気に入り画面で選択されるような）ユーザが選択したフォントを用い、翻訳テキストが実質的に吹き出しを埋めるようにフォントサイズを選択する。さらなる実施形態では、表示モジュール６１０は、翻訳テキストのサイズおよびフォントを元のテキストに一致させる。

ある実施形態では、表示モジュール６１０は、提示メタデータが示すように、吹き出しの場所および順序に従ってデジタルグラフィックノベルを提示する。１つのそのような実施形態では、表示モジュール６１０は、提示メタデータに示される順序で各々の吹き出しを表示し、テキストの読みやすさと文脈を与えるのに十分な量の周囲イメージを提供することとのバランスを取るズームレベルを選択する。表示モジュール６１０は、用いるズームレベルを選択することができる、またはこれを提示メタデータに含めることができる。表示モジュール６１０は、ユーザ入力（たとえば、画面をタップすること、または「次の吹き出し」コントロールを選択すること）に応答して、（提示メタデータに示されるように）１つの吹き出しから次の吹き出しへ進む。別の実施形態では、提示メタデータは、まず画面上に全パネル（またはページ）を提示し、次に各々の吹き出しに順次ズームインするよう表示モジュール６１０に指示する。

また別の実施形態では、完全なパネルまたはページを画面上に表示し、（順序またはユーザ選択に基づいて）選択された吹き出しに対応する画像の区域のみを拡大する。まず、表示モジュール６１０は、画面にズームすることなく全パネルを表示する。読み手が「次の吹き出し」コントロールを選択すると、（提示メタデータが示すような）第１の吹き出しを含む画像の区域が拡大され、読み手は、（たとえばスクロールバーを用いて）その吹き出しの中のテキストを読み進むことができる。しかしながら、吹き出しを含まない画像の残余は拡大されないままである。このように、読み手は、１つのビューと別のビューとの間を切換える必要なく、テキストを読み、パネル中の画像の残余が与える文脈情報を得ることができる。

ある実施形態では、表示モジュール６１０は、非吹き出しテキスト（たとえば、標識上に含まれるテキスト、音響効果の視覚的誇張表現など）の翻訳を表示する。１つのそのような実施形態では、提示メタデータは、非吹き出しテキストを含むパネルの一部を示す。ユーザが（たとえば画面の一部をタップすることによって）その部分を選択すると、元の画像に関連して非吹き出しテキストの翻訳が表示される。たとえば、画面のいちばん下のテキストバーに、または元の画像に重なるポップアップ吹き出しの中に翻訳テキストを表示してもよい。

他のそのような実施形態では、表示モジュール６１０は、画像に画像処理を施して元の非吹き出しテキストを翻訳テキストで置換える。１つの実施形態では、表示モジュール６１０は、背景色、テキストの色、テキストのスタイル、テキストのサイズ、テキストの向き、テキストの見え方（perspective）（すなわち、ページの平面に対する向き）などの元の非吹き出しテキストの性質を同定する。次に表示モジュール６１０は、吹き出しを参照して上述したのと同様の態様で標識を「真っ白」にして、同様の性質を有する（たとえば、同じ色、元のスタイルと同様のフォントを用いて、同じ向きで）翻訳テキストを追加する。当業者は、画像を変更して非吹き出しテキストをその翻訳で置換えることができる他の態様を認識し得る。

フィードバックモジュール６２０はインターフェイスを提供し、ユーザは、これを用いて、デジタルグラフィックノベルの提示に関するフィードバックを提供することができる。さまざまな実施形態では、フィードバックモジュール６２０は、提示に関する問題を報告するのにユーザが選択することができる表示装置の画面上の仮想ボタンを設ける。たとえば、翻訳テキストが意味をなさない、不正確である、拙い、またはそれ以外で不十分であれば、ユーザは、ボタンを押して、問題を記述する（たとえば、よりよい翻訳を提案する）短いフィードバック書式を完成させることができる。１つのそのような実施形態では、提示メタデータはローカルに更新されるので、ユーザが再びデジタルグラフィックノベルを読むときには、（ユーザがそれを提供したと仮定すると）ユーザが改良した翻訳が提示される。別のそのような実施形態では、フィードバックモジュール６２０は、提示メタデータを全システムにわたって更新してよりよい翻訳を含めるべきか否かを判断する見直しのために、グラフィックノベル配信システム１３０の管理者にフィードバックを送る。また別の実施形態では、フィードバックをグラフィックノベル分析システム１２０に与え、グラフィックノベル分析システムは、これを用いて、まず翻訳を提供した機械翻訳アルゴリズムを更新する。ある実施形態では、フィードバックモジュール６２０は、ＯＣＲまたは自動翻訳がうまくいかなかったテキストの一部の翻訳をクラウドソーシングする。たとえば、画像の領域がテキストを含有すると予測されたが、認識可能なキャラクタの同定にＯＣＲが失敗した場合、フィードバックモジュール６２０は、問題の画像の部分をハイライトして、テキストが存在するかどうかを示すよう、かつ存在する場合は翻訳を提供するよう、ユーザを促し得る。

ローカルデータ記憶６３０は、デジタルグラフィックノベル、デジタルグラフィックノベルコンテンツ、および提示メタデータを表示するためのソフトウェアを記憶する１つ以上のコンピュータ読み取り可能媒体である。１つの実施形態では、ユーザは、提示メタデータを含むパッケージ化デジタルグラフィックノベルをオンライン市場からローカルデータ記憶６３０にダウンロードする。提示モジュール６１０は次に、ローカルデータ記憶６３０からパッケージ化デジタルグラフィックノベルにアクセスする。別の実施形態では、パッケージ化デジタルグラフィックノベルは、（たとえばクラウドサーバに）遠隔に記憶され、表示モジュール６１０はネットワーク１７０を介してこれにアクセスする。

例示的な方法
図７は、デジタルグラフィックノベルの自動翻訳を提供する方法を提供する方法７００の１つの実施形態を示す。図７は、方法７００のステップをネットワーク化コンピューティング環境１００のさまざまな構成要素によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。

図７に示される実施形態では、方法７００は、トレーニングモジュール４１０がデジタルグラフィックノベルの特徴を予測的に同定するためのモデルを構築すること７１０で開始する。前述のように、モデルはまず、教師学習段階で構築され７１０、その間に人のオペレータがコーパス１１０から選択されるデジタルグラフィックノベルのサブセット中の特徴を同定する。モデルを構築する７１０ための方法８００の１つの実施形態を図８を参照して以下に詳細に説明する。

予測モジュール４２０は、デジタルグラフィックノベルコンテンツにモデルを適用して７２０、その中に含まれる特徴を予測する。１つの実施形態では、特徴は、デジタルグラフィックノベル内のパネルおよび吹き出しの場所と順序とを含む。他の実施形態では、予測モジュール４２０は、非吹き出しテキスト、好ましい遷移、描かれるオブジェクト、作画者、著者、描かれるキャラクタ、天気、雰囲気、あらすじ、テーマ、広告などの異なるまたは付加的な特徴を同定する。

検証モジュール４３０は、人による見直しに基づいてモデルが行なう予測を検証する７３０。１つの実施形態では、検証７３０は、モデルの初期トレーニングの一部として行なわれる。別の実施形態では、読み手から検証フィードバックがクラウドソーシングされ、受けたフィードバックに基づいて連続してまたは周期的にモデルが更新される。たとえば、検証モジュール４３０は、１ヶ月の期間にわたってクラウドソーシングされたフィードバックを集め、次に期間の終わりに更新モデルを発生させてもよい。モデルを検証する７３０および更新するための方法９００の１つの実施形態を図９を参照して以下に詳細に説明する。

パッケージ化モジュール５１０は、グラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する７４０。提示メタデータは、検証モジュール４３０から受信した検証済予測（または予測モジュール４２０から直接に受信した予測）に基づいて、パッケージ化モジュール５１０によって生成され、さまざまな特徴（たとえば吹き出し）に関連付けられる未翻訳テキストを含む。１つの実施形態では、提示メタデータは、モデルが予測するような各々のパネルの中の吹き出しの場所および順序と、ＯＣＲアルゴリズムが判断するような各々の吹き出しの中に含まれるテキストとを示す。前述のように、他の実施形態では、提示メタデータは、予測に基づく具体的な提示命令を与える、または、提示とパッケージ化デジタルグラフィックノベルを表示する際に書籍リーダ１８０がさらに処理する特徴の場所および性質を示すものとの組合せを用いる。

翻訳モジュール５２０は、特徴のテキスト、または対応の提示メタデータがそれについてのテキストを含む特徴のセットを翻訳する７５０。前述のように、テキストを含む特徴（たとえば吹き出し）の場所および順序ならびに他の予測される特徴へのその近さ（たとえば、特定のキャラクタと同じパネルに含まれている）は、翻訳モジュール５２０が翻訳を支援するのに用いる文脈情報を提供する。１つの実施形態では、翻訳モジュール５２０は、パッケージ化デジタルグラフィックノベルの一部（たとえば、パネル、ページなど）の中の吹き出し全部を同定し、吹き出しについて提示メタデータが示す順序で、各々の吹き出しのメタデータに含まれる機械可読テキストを１つのテキストにコンパイルする。次に翻訳モジュール５２０は、１つのテキスト全体を翻訳する。次に翻訳モジュール５２０は、テキストを各々の吹き出しに対応するセグメントに再び分け、吹き出しに対応する提示メタデータを更新し、テキストを翻訳テキストで置換えるまたは補足する。たとえば、翻訳テキストを、それが翻訳でありかつ翻訳された言語であることを示すタグで囲んで、元のテキストの後に添えてもよい。

パッケージ化デジタルグラフィックノベルは、提示メタデータが示す態様に従う提示のために書籍リーダ１８０に提供される７６０。１つの実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序と、吹き出しについての（翻訳モジュール５２０が生成するような）翻訳テキストとを示す。デジタルグラフィックノベルを提示する正確な態様は、（たとえば、ユーザの閲覧の好みに基づいて）書籍リーダ１８０によってローカルに決められる。このように、異なる書籍リーダ１８０は、同じデジタルグラフィックノベルを異なるように提示することができる。別の実施形態では、提示メタデータは、デジタルグラフィックノベルを提示すべき態様を記述する命令を含む。結果的に、書籍リーダ１８０は、提示メタデータが指令するようにデジタルグラフィックノベルを提示する。

図８は、予測モデルを構築するための方法８００の１つの実施形態を示す。図８は、方法８００のステップをトレーニングモジュール４１０によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。

図８に示される実施形態では、方法８００は、トレーニングモジュール４１０が、コーパス１１０からデジタルグラフィックノベルのサブセットを同定して８１０、トレーニングセットとして用いることで開始する。上述のように、図４を参照して、サブセットは、ランダムに選択されても、または特性の所望の混合（たとえば、さまざまな異なる発行者および著者、さまざまなキャラクタなど）を有するように選ばれてもよい。

図８に戻って、トレーニングモジュール４１０は、トレーニングセット中のデジタルグラフィックノベルから（たとえば、個別のページに対応する）原画像を抽出する８２０。１つの実施形態では、トレーニングに備えて原画像を処理する。たとえば、均一の寸法を有するように原画像をリサイズすることができ、トレーニングセットにわたる均一性を与えるために明るさおよびコントラストの設定を変更することができる。

行なわれる任意の前処理に拘らず、トレーニングモジュール４１０は、教師トレーニング段階を開始して８３０、原画像の特徴を同定する。上述のように、図４を参照して、教師トレーニング段階では、人のオペレータが、処理された画像（または、処理が行なわれなかった場合には原画像）の特徴を同定する。このように、教師トレーニング段階の終結時に、トレーニングモジュール４１０は、各々が画像が含む特徴を示す対応のメタデータと対にされた画像のセットを有する。

教師トレーニング段階の間に生成されるトレーニングセットおよび対応のメタデータに基づいて、トレーニングモジュール４１０は、デジタルグラフィックノベルの特徴を予測的に同定するためのモデルを作成する８４０。１つの実施形態では、モデルは、パネルの場所および順序と、描かれるキャラクタのアイデンティティとを予測的に同定する神経回路網である。モデルはトレーニングセットから構築されたので、トレーニングセット中のデジタルグラフィックノベルのうち任意のもの（または少なくとも大部分）が提供されると、これは、パネル場所、パネル順序、および描かれるキャラクタを正確に同定する。このように、同じ神経回路網が以前にそれが未適用のデジタルグラフィックノベルに適用されると、パネルと描かれるキャラクタとを成功裏に同定する確率が合理的に高くなる。モデルを成功裏に作成すると８４０、トレーニングモジュール４１０はこれを予測モデル記憶４４０に記憶する８５０。

図９は、フィードバックに基づいて予測を検証する方法９００の１つの実施形態を示す。図９は、方法９００のステップを予測モジュール４２０および検証モジュール４３０によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順で行なう、または異なるステップを行なうことがある。

図９に示される実施形態では、方法９００は、予測モジュール４２０が分析対象の画像を受信すること９１０で開始する。予測モジュール４２０は、予測モデルを画像（たとえば、図８の方法を用いて生成されたもの）に適用して９２０、画像特徴の１つ以上の予測を発生させる。明瞭さのため、画像中のパネルの場所、パネルの順序、および各々のパネルに描かれるキャラクタについての予測をモデルが生成する実施形態を参照して図９の残余を説明する。明細書の残余に鑑みて、当業者は、多数の他の特徴および特徴の組合せに関する予測をモデルが生成し得ることを認識するであろう。

検証モジュール４３０は、予測モジュールが行なった予測が正しいか否かを示すフィードバックを取得する９３０。前述のように、フィードバックは、開発の際にモデルをトレーニングするという作業を課されたオペレータからのものであることができる、または実用化の後にユーザからクラウドソーシングされることができる。１つの実施形態では、フィードバックは２値であり、予測が正しいか誤っているかを示す。他の実施形態では、フィードバックは、予測が誤っていた場合の訂正も含む。たとえば、予測されたフレームの場所が誤っている場合、フィードバックはフレームの正しい場所を示すことができる。同様に、フィードバックは、フレームの正しい順序を与えることができる。さらに、モデルがキャラクタを誤って同定すると、フィードバックは正しいキャラクタ同定を与えることができる。

取得される９３０フィードバックの具体的な性質に拘らず、検証モジュール４３０は、これを用いてモデルを更新する９４０。図４を参照して上述したように、１つの実施形態では、傾斜降下法を用いる逆伝播アルゴリズムを用いてモデルを更新する。このように、フィードバックの量が多くなる（accounted for）につれて、モデルが生成する予測の精度が時間とともに向上する。

図１０は、同定された特徴から生成される文脈情報を用いて翻訳を支援する方法１０００の１つの実施形態を示す。図１０は、方法１０００のステップを翻訳モジュール５２０によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。たとえば、ある実施形態では、書籍リーダ１８０が翻訳を行なう。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。

図１０に示される実施形態では、方法１０００は、翻訳モジュール５２０がデジタルグラフィックノベルコンテンツを受信する１０１０ことで開始する。翻訳モジュール５２０は次に、デジタルグラフィックノベルコンテンツの特徴を同定する１０２０．同定される特徴のうち少なくとも１つはテキストを含む。１つの実施形態では、翻訳モジュール５２０は、デジタルグラフィックノベルコンテンツとともにパッケージ化される提示メタデータに基づいて、いくつかの吹き出しおよびそれらの吹き出しの意図される読み順を同定する１０２０。これに代えて、翻訳プロセスの一部として（前述のような）機械学習モデルの適用を行なう。さらなる実施形態では、翻訳モジュール４１０は、前述のように、標識などのテキストを含む非吹き出し特徴を同定する１０２０。

翻訳モジュール５２０は、同定される特徴に基づいてテキストを含む特徴または複数の特徴についての文脈情報を生成する１０３０。１つの実施形態では、テキストを含む特徴は吹き出しであり、それら吹き出しについての文脈情報は、提示メタデータに示されるようなそれらの意図される読み順である。他の実施形態では、文脈情報は、吹き出し近くのデジタルグラフィックノベルのパネルの中に描かれていると提示メタデータ中に同定されるキャラクタおよびオブジェクトを含む。１つのそのような実施形態では、吹き出しと同じパネルの中に含まれる特徴のみがその吹き出しについての文脈情報を提供すると考えられる。他のそのような実施形態では、吹き出しを含むパネルのしきい値距離内の（たとえば、判断されたパネルの読み順が示すような、吹き出しを含むパネルの前後の３枚のパネル内の）他のパネルの特徴が文脈情報に寄与する。１つの実施形態では、吹き出しについての文脈情報としての所与の特徴の影響は、吹き出しに対するその特徴の近さによって重み付けられ、吹き出しにより近い特徴ほど、より離れたものよりも大きな重みが与えられる。

図１０に示される実施形態では、方法１０００は、翻訳モジュール５２０が１つ以上の特徴に含まれるテキストを翻訳すること１０４０で終結する。１つの実施形態では、翻訳モジュール５２０は、テキストを含んだそれらの特徴からテキストを抽出し、文脈情報によって支援される機械翻訳アルゴリズムを適用する。たとえば、翻訳モジュール５２０は、吹き出しの意図される読み順を活かして翻訳を改良することができる。前述のように、１つの吹き出しの中で用いられる語および句は、その前後の吹き出しの正しい翻訳についての手がかりを与えることができる。別の例として、吹き出しが特定のキャラクタと同じパネル内に含まれる場合、そのキャラクタに係る対話を翻訳するように特に合わせられた機械翻訳アルゴリズムを適用することができる。当業者は、テキストの翻訳を支援するのに用い得る文脈情報の他の形態を認識し得る。

付加的な考察
以上の説明のある部分は、アルゴリズム的プロセスまたは動作の観点で実施形態を説明する。これらのアルゴリズム的説明および表示は、データ処理技術分野の当業者によって一般的に用いられて、その成果（work）の実態を効果的に他の当業者に伝える。これらの動作は、機能的、計算的、または論理的に説明されるが、プロセッサまたは均等の電気回路による実行のための命令、マイクロコードなどを備えるコンピュータプログラムによって実現されることが理解される。さらに、普遍性を失わなければ、時には、機能的動作のこれらの配置をモジュールと称することが好都合であることもわかっている。記載される動作およびその関連のモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組合せで具現化されてもよい。

本明細書中で用いるように、「１つの実施形態」または「実施形態」に対する任意の参照は、実施形態に関連して説明される特定の要素、特徴、構造、または特性が少なくとも１つの実施形態に含まれることを意味する。「１つの実施形態では」という句が明細書中のさまざまな場所に現われても、必ずしもすべてが同じ実施形態を参照するわけではない。

「結合される」および「接続される」という表現をそれらの派生語とともに用いてある実施形態を説明することがある。これらの用語は、互いに対する同義語として意図されるものではないことを理解すべきである。たとえば、２つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「接続される」という用語を用いてある実施形態を説明することがある。別の例では、２つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「結合される」という用語を用いてある実施形態を説明することがある。しかしながら、「結合される」という用語は、２つ以上の要素が互いと直接に接しているのではなく、依然として互いと協働するまたは相互作用することも意味することがある。実施形態はこの文脈において限定されない。

本明細書中で用いるように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」という用語、またはその任意の他の変形は、非排他的含有をカバーすることが意図される。たとえば、要素の一覧を備えるプロセス、方法、物品、または機器は、それらの要素のみに必ずしも限定されるのではなく、明示的に列挙されないまたはそのようなプロセス、方法、物品、または機器に内在的でない他の要素を含むことがある。さらに、そうでないと明示的に述べていなければ、「または」は、排他的なまたはではなく、包括的なまたはを指す。たとえば、条件ＡまたはＢは、Ａが真であり（または存在し）Ｂが偽である（または存在しない）、Ａが偽であり（または存在せず）Ｂが真である（または存在する）、およびＡとＢとの両者が真である（または存在する）のうち任意の１つによって満たされる。

さらに、「ａ」または「ａｎ」の使用は、本明細書中の実施形態の要素および構成要素を記載するのに用いられる。これは、便宜上、開示の一般的な意味を与えるためにのみ行なわれる。この記載は、１つまたは少なくとも１つを含むように解釈されるべきであり、反対の意味であるということが自明でなければ単数形は複数も含む。

この開示を読むと、当業者は、インデックス付けされたｅブック注釈を与えるためのシステムおよびプロセスのためのさらに付加的な代替的構造および機能設計を認めるであろう。このように、特定の実施形態および適用例を示しかつ記載したが、記載される主題は、本明細書中に開示される正確な構成および構成要素に限定されるのではなく、当業者には明らかであろうさまざまな修正、変更、および変形が本明細書中に開示される方法および機器の配置、動作、および詳細においてなされてもよいことを理解すべきである。発明の範囲は、以下の請求項によってのみ限定されるものである。

Claims

方法であって、
少なくとも１つのプロセッサによってデジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信することと、
前記少なくとも１つのプロセッサによって、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定することと、
前記少なくとも１つのプロセッサによって、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定することとを備え、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み、
前記少なくとも１つのプロセッサによって、前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第１の自然言語から第２の自然言語に自動的に翻訳して翻訳テキストを作成することとを備え、前記テキストを自動的に翻訳することは、
前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを１つのテキストにコンパイルすることと、
前記１つのテキストを前記第１の自然言語から前記第２の自然言語に翻訳して前記翻訳テキストを作成することと、
前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することとを含む、方法。
前記テキストを自動的に翻訳することは、
前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに適用することを備える、請求項１に記載の方法。
前記方法は、前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成することをさらに備え、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも１つの特徴の指示とを含み、前記方法はさらに、
前記少なくとも１つのプロセッサによって、前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供することを備える、請求項１または２に記載の方法。
前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項３に記載の方法。
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定することは、
前記少なくとも１つのプロセッサによって、前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
前記数値マップを機械学習モデルの第１の人工神経回路網に入力することに応答して、前記少なくとも１つのプロセッサによって、前記第１の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとを備える、請求項１から４のいずれか１項に記載の方法。
テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定することは、前記機械学習モデルの第２の人工神経回路網に前記複数の候補領域を入力することに応答して、前記少なくとも１つのプロセッサによって、前記第２の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を受信することを備える、請求項５に記載の方法。
電子装置であって、前記電子装置は、
少なくとも１つのプロセッサと、
命令を記憶する一時的でないコンピュータ読み取り可能記憶媒体とを備え、前記命令は、実行されると、前記少なくとも１つのプロセッサを、
デジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信し、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定し、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定するように構成されており、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み、
前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第１の自然言語から第２の自然言語に自動的に翻訳して翻訳テキストを作成する、ように構成されており、
前記提示メタデータは、各前記吹き出しのコンテンツのプレーンテキスト表示を含み、
前記命令は、実行されると、前記少なくとも１つのプロセッサに、少なくとも、
前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを１つのテキストにコンパイルすることと、
前記１つのテキストを前記第１の自然言語から前記第２の自然言語に翻訳して前記翻訳テキストを作成することと、
前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することと、によって、
前記テキストを自動的に翻訳するように構成されている、電子装置。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項７に記載の電子装置。
前記命令は、実行されると、前記少なくとも１つのプロセッサをさらに、
前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するように構成し、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも１つの特徴の指示とを含み、前記命令は、実行されると、前記少なくとも１つのプロセッサをさらに、
前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供するように構成する、請求項７または８に記載の電子装置。
前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項９に記載の電子装置。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、少なくとも、
前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
前記数値マップを機械学習モデルの第１の人工神経回路網に入力することに応答して、前記第１の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとによって、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定するように構成する、請求項７〜１０のいずれか１項に記載の電子装置。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、前記機械学習モデルの第２の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第２の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項１１に記載の電子装置。
命令を記憶するコンピュータ読み取り可能記憶媒体であって、前記命令は、実行されると、少なくとも１つのプロセッサを、
デジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信し、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定し、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定するように構成されており、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み、
前記デジタルグラフィックノベルコンテンツの前記特徴に基づいて、前記複数の吹き出しの意図される読み順を生成し、
前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第１の自然言語から第２の自然言語に自動的に翻訳して翻訳テキストを作成する、ように構成されており、
前記テキストを自動的に翻訳することは、
前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを１つのテキストにコンパイルすることと、
前記１つのテキストを前記第１の自然言語から前記第２の自然言語に翻訳して前記翻訳テキストを作成することと、
前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することとを含む、コンピュータ読み取り可能記憶媒体。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項１３に記載のコンピュータ読み取り可能記憶媒体。
前記命令は、実行されると、前記少なくとも１つのプロセッサをさらに、
前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するように構成し、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも１つの特徴の指示とを含み、前記命令は、実行されると、前記少なくとも１つのプロセッサをさらに、
前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供するように構成する、請求項１３または１４に記載のコンピュータ読み取り可能記憶媒体。
前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項１３〜１５のいずれか１項に記載のコンピュータ読み取り可能記憶媒体。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、少なくとも、
前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
前記数値マップを機械学習モデルの第１の人工神経回路網に入力することに応答して、前記第１の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとによって、
吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定するように構成する、請求項１３〜１６のいずれか１項に記載のコンピュータ読み取り可能記憶媒体。
前記命令は、実行されると、前記少なくとも１つのプロセッサを、前記機械学習モデルの第２の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第２の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項１７に記載のコンピュータ読み取り可能記憶媒体。
請求項１〜６のいずれかに記載の方法をコンピュータに実行させるためのプログラム。