JP6596511B2 - デジタルグラフィックノベルの自動翻訳 - Google Patents

デジタルグラフィックノベルの自動翻訳 Download PDF

Info

Publication number
JP6596511B2
JP6596511B2 JP2017556883A JP2017556883A JP6596511B2 JP 6596511 B2 JP6596511 B2 JP 6596511B2 JP 2017556883 A JP2017556883 A JP 2017556883A JP 2017556883 A JP2017556883 A JP 2017556883A JP 6596511 B2 JP6596511 B2 JP 6596511B2
Authority
JP
Japan
Prior art keywords
text
graphic novel
digital graphic
novel content
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017556883A
Other languages
English (en)
Other versions
JP2018529133A (ja
Inventor
ハートレル,グレッグ・ドン
ゴーシュ,デバジット
ボーン−ベイル,マシュー
リブリン,ジョン・マイケル
コンボイ,ガース
グ,シンシン
トシェフ,アレキサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018529133A publication Critical patent/JP2018529133A/ja
Application granted granted Critical
Publication of JP6596511B2 publication Critical patent/JP6596511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

1.技術分野
本明細書中に記載の主題は概してデジタルグラフィックノベルに関し、特にデジタルグラフィックノベルコンテンツの自動翻訳を提供することに関する。
2.背景情報
電子書籍(「eブック」)は、国際デジタル出版フォーラム電子出版(EPUB)標準およびポータブルドキュメントフォーマット(PDF)などのさまざまな形式で提供されている。eブックは、専用の書籍リーダ(reading device)、汎用移動体装置、タブレットコンピュータ、ラップトップコンピュータ、およびデスクトップコンピュータなどのさまざまな装置を用いて読むことができる。各々の装置は、eブックをユーザに表示する読書ソフトウェア(「eリーダ」)を含む。
グラフィックノベルは、伝統的に印刷媒体を通じて配布される目で見る物語の形態である。しかしながら、発行者は、特に電話機およびタブレットなどのeリーダを用いたデジタル消費向けにこのコンテンツを提供することがますます多くなっている。そのようなデジタルグラフィックノベルコンテンツは幅広い管轄区域で入手可能であり、多数の言語のグラフィックノベルに対する需要がある。典型的に、グラフィックノベルの翻訳版を提供するには、下にある画像を変更する必要がある。結果的に、発行者および著者が公式翻訳版を市場に投入することができるよりも前に、無許可販売者が未ライセンスの翻訳を入手可能にしてしまうことが多い。
要約
以上および他の課題は、方法、電子装置、および一時的でないコンピュータ読み取り可能記憶媒体によって対処される。1つの実施形態では、方法は、デジタルグラフィックノベルコンテンツを受信することと、グラフィックノベルコンテンツの特徴を同定することとを含む。特徴は、テキストを含む少なくとも1つの特徴を含む。方法は、同定される特徴に基づいて、テキストを含む少なくとも1つの特徴に対応する文脈情報を生成することも含む。方法は、少なくとも1つの特徴に含まれるテキストを翻訳して翻訳テキストを作成することをさらに含み、翻訳は文脈情報によって支援される。
1つの実施形態では、電子装置は、実行可能なコンピュータプログラムコードを記憶する一時的でないコンピュータ読み取り可能記憶媒体と、コードを実行するための1つ以上のプロセッサとを含む。実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつグラフィックノベルコンテンツの特徴を同定するための命令を含む。特徴は、テキストを含む少なくとも1つの特徴を含む。実行可能なコンピュータプログラムコードは、同定される特徴に基づいて、テキストを含む少なくとも1つの特徴に対応する文脈情報を生成するための命令も含む。実行可能なコンピュータプログラムコードは、少なくとも1つの特徴に含まれるテキストを翻訳して翻訳テキストを作成するための命令をさらに含み、翻訳は文脈情報によって支援される。
1つの実施形態では、一時的でないコンピュータ読み取り可能記憶媒体は、実行可能なコンピュータプログラムコードを記憶する。実行可能なコンピュータプログラムコードは、デジタルグラフィックノベルコンテンツを受信し、かつグラフィックノベルコンテンツの特徴を同定するための命令を含む。特徴は、テキストを含む少なくとも1つの特徴を含む。実行可能なコンピュータプログラムコードは、同定される特徴に基づいて、テキストを含む少なくとも1つの特徴に対応する文脈情報を生成するための命令も含む。実行可能なコンピュータプログラムコードは、少なくとも1つの特徴に含まれるテキストを翻訳して翻訳テキストを作成するための命令をさらに含み、翻訳は文脈情報によって支援される。
1つの実施形態に従う、グラフィックノベルにコンピュータ支援ナビゲーションを提供するのに好適な、ネットワーク化コンピューティング環境を示す高レベルブロック図である。 1つの実施形態に従う、図1のネットワーク化コンピューティング環境で用いるためのコンピュータの例を示す高レベルブロック図である。 図1に示されるグラフィックノベルコーパス(corpus)の1つの実施形態を示す高レベルブロック図である。 図1に示されるグラフィックノベル分析システムの1つの実施形態を示す高レベルブロック図である。 図1に示されるグラフィックノベル配信システムの1つの実施形態を示す高レベルブロック図である。 図1に示される書籍リーダ(reader device)の1つの実施形態を示す高レベルブロック図である。 1つの実施形態に従う、デジタルグラフィックノベルの自動翻訳を提供する方法を示すフローチャートである。 1つの実施形態に従う、図7の方法で用いるための予測モデルを構築する方法を示すフローチャートである。 1つの実施形態に従う、フィードバックに基づいて予測を検証する方法を示すフローチャートである。 1つの実施形態に従う、同定される特徴から生成される文脈情報を用いて翻訳を支援する方法を示すフローチャートである。
詳細な説明
発行者は、デジタルに入手可能なグラフィックノベルコンテンツの量を増やしている。19世紀にまで遡るグラフィックノベル、漫画本、およびコミックストリップの幅広い印刷全集も存在する。ある歴史家は、ローマのトラヤヌスの円柱およびバイユーのタペストリーなどの古代文明が作った芸術作品が本質的には同じ芸術の形態であると議論すらしている。便宜上、本明細書中では、話の流れのある一連の順序付けられた画像を備える任意のそのようなコンテンツを指すのにグラフィックノベルという用語を用いる。
グラフィックノベルを読むことは、テキストベースの書籍を読むこととは異なる。現地に特有の読み順で(たとえば、英語圏の国では左から右へおよび上から下へ)読まれるテキストを主に通じて物語を語るよりもむしろ、グラフィックノベルの話は、(パネルとも称される)順序付けられた画像と吹き出しとの組合せを通して伝えられる。場合によっては、吹き出しは複数のパネルに重なる。さらに、ある事例(たとえば、多くの日本語のグラフィックノベル)では、テキストは右から左および上から下に読まれる。これらの要因は、グラフィックノベルの自動(または半自動)翻訳を提供する際の特定の課題となる。正確な翻訳を提供するには、語または句の文脈が重要であることが多い。そのため、パネルおよび吹き出しの意図される順序を知っておくと、正しい順序で対話を分析できるようになるので、高品質の翻訳の作成を支援することができる。さらに、グラフィックノベル中の画像の他の特徴は、翻訳を支援する付加的な文脈情報を提供することがある。語または句を2とおり(以上)に翻訳できる場合、対応の画像中の特定のキャラクタまたはオブジェクトの存在により、他の翻訳に対するある翻訳の可能性が高くなることがある。たとえば、英単語の「bow」は、一種の結び目、武器、身体的行為、または船の一部である可能性がある。語を含む画像がこれらのもののうち1つを描いていれば、それが正しい翻訳である可能性がある。
システム概要
図(図)および以下の説明は例示のためにのみある実施形態を説明する。当業者は、以下の説明から、本明細書中に記載の原則から逸脱することなく、本明細書中に示される構造および方法の代替的な実施形態を用い得ることを容易に認識するであろう。ここでいくつかの実施形態を参照し、その例を添付の図に示す。実践可能な場合はどこでも、図で同様のまたは同じ参照番号を用いることがあり、同様のまたは同じ機能性を示すことがあることを注記する。
図1は、デジタルグラフィックノベルの自動(または半自動)翻訳を提供するのに好適なネットワーク化コンピューティング環境100の1つの実施形態を示す。示されるように、環境100は、グラフィックノベルコーパス110、グラフィックノベル分析システム120、グラフィックノベル配信システム130、および書籍リーダ180を含み、そのすべてはネットワーク170を介して接続される。ネットワーク化コンピューティング環境100の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。
グラフィックノベルコーパス110は、グラフィックノベルのデジタル表示を記憶する。デジタル表示は、EPUBまたはPDFなどの任意の適切な形式を用いることができる。さまざまな実施形態では、デジタル表示は、発行者および著者によって予め作られて、既存の印刷済グラフィックノベルをスキャンすることによって作成されて、またはこれらの技術の組合せを用いてコンパイルされて、提供される。グラフィックノベルコーパス110を図3を参照して以下に詳細に説明する。
グラフィックノベル分析システム120は、機械学習技術を適用してデジタルグラフィックノベル内の特徴を同定するためのモデルを構築しかつ適用する。グラフィックノベル分析システム120は、テキストを含む同定される特徴の翻訳も提供する。1つの実施形態では、特徴は、パネルおよび吹き出しの場所と意図される読み順とを含む。同定されるテキストのより大きな文脈を提供することにより、意図される順序を用いて当該テキストの翻訳を支援する。他の実施形態では、特徴は、付加的にまたは代替的に、描かれるキャラクタ、描かれるオブジェクト(たとえば、扉、武器など)、イベント(たとえば、プロット、キャラクタ間の関係など)、雰囲気、1つのパネルと次のパネルとの間の所望の視覚的遷移(たとえば、パン、ズームアウト、およびズームインなど)、描かれる天気、ジャンル、右から左への(RTL)読み方、広告などを含む。これらの特徴の多くはグラフィックノベルに独特のものである。たとえば、テキストベースの書籍には著者がいるが、作画者はおらず、グラフィックノベルコンテンツの画像の中に描かれるキャラクタまたはオブジェクトを同定することは、同じものをテキスト中に同定することとは大きく異なる。同様に、テキストベースの書籍のページは左から右および上から下に読まれる一方で、グラフィックノベルは典型的に、順に読まれるページあたりのいくつかのパネルとパネルあたりのいくつかの吹き出しとを含有し、意図される読み順は、読み手の注意がページのあちこちに飛ぶことを求める。
ある事例では、グラフィックノベル分析システム120は、デジタルグラフィックノベルのある特徴の同定を用いてテキストの翻訳を補助する。たとえば、1つの実施形態では、グラフィックノベル分析システム120がパネル中の特定のキャラクタを同定すると、これは、そのキャラクタ向けに設計された機械翻訳アルゴリズムを適用する。このキャラクタ特有のアルゴリズムは、キャラクタに関連付けられるよく使われる句の一覧を、準備されたその句の翻訳とともに含むことができる。機械翻訳アルゴリズムを機械学習して、そのキャラクタに関連付けられる正確な(just)対話のトレーニングセットから展開してもよい。グラフィックノベル分析システム120を図4を参照して以下に詳細に説明する。
グラフィックノベル配信システム130は、グラフィックノベルコンテンツと、グラフィックノベルコンテンツをどのように提示すべきかを示す提示メタデータとを含むパッケージ化グラフィックノベルを作成する。実施形態の1つの組では、グラフィックノベル配信システム130は、パッケージ化プロセスの一部としてグラフィックノベルコンテンツを翻訳する。1つのそのような実施形態では、提示メタデータは、同定される特徴と、同定される特徴の場所と、グラフィックノベル分析システム120が出力するようなパネル/吹き出しの意図される読み順とを含む。別のそのような実施形態では、グラフィックノベル配信システム130は、グラフィックノベル分析システム120からの出力を処理して、推奨される提示態様を判断する。この実施形態では、提示メタデータは、順序付けられた提示命令の一覧(たとえば、パネル1を全画面表示し、次にパネル2にパンし、かつ吹き出し1にズームインし、次にパネル2を全画面表示するようにズームアウトし、次に吹き出し2にズームインするなど)を含む。
実施形態の別の組では、提示メタデータは、別の装置(たとえば書籍リーダ180)による翻訳を補助するメタデータを含む。1つのそのような実施形態では、提示メタデータは、同定される特徴、同定される特徴の場所、およびパネル/吹き出しの意図される読み順と、グラフィックノベル分析システム120が出力するような各々の吹き出しのコンテンツのプレーンテキスト表示とを含む。別のそのような実施形態では、提示メタデータは、吹き出し内にないグラフィックノベルコンテンツ中に含まれるテキスト(たとえば、標識(signs)上のテキスト、音響効果の視覚的誇張表現(emote)など)の場所およびプレーンテキスト表示も含む。グラフィックノベル配信システム130を図5を参照して以下に詳細に説明する。
書籍リーダ180は、デスクトップPC、ラップトップ、スマートフォン、タブレット、専用書籍リーダなどの、デジタルグラフィックノベルをユーザに提示することができる任意のコンピューティングデバイスであることができる。書籍リーダ180を3つだけ示すが、実際には、ネットワーク170を用いて環境100の他の構成要素と通信することができる多数の(たとえば何百万台もの)書籍リーダ180が存在する。1つの実施形態では、クライアント装置180は、グラフィックノベル配信システム130からパッケージ化デジタルグラフィックノベルを受信し、含まれる提示メタデータに従ってこれをユーザに提示する。例示的な書籍リーダ180を図6を参照して以下に詳細に説明する。
ネットワーク170は、ネットワーク化コンピューティング環境100の構成要素が互いと通信できるようにする。1つの実施形態では、ネットワーク170は、標準的な通信技術および/またはプロトコルを用い、インターネットを含むことができる。このように、ネットワーク170は、イーサネット(登録商標)、802.11、マイクロ波アクセスに関する世界的相互運用(WiMAX)、2G/3G/4G移動体通信プロトコル、デジタル加入者線(DSL)、非対称転送モード(ATM)、インフィニバンド(InfiniBand)、PCIエクスプレスアドバンストスイッチングなどの技術を用いたリンクを含むことができる。同様に、ネットワーク170上で用いられるネットワーク化プロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、シンプルメール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク110上で交換されるデータを、2値形態の画像データを含む技術および/または形式(たとえば、ポータブルネットワークグラフィック(Portable Network Graphics)(PNG))、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)、ポータブルドキュメントフォーマット(PDF)、電子出版(EPUB)などを用いて表示することができる。さらに、リンクのうちすべてまたは一部を、セキュアソケットレイヤ(SSL)、トランスポート層セキュリティ(TLS)、仮想私設ネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)などの従来の暗号化技術を用いて暗号化することができる。別の実施形態では、ネットワーク170上のエンティティは、上述のものの代わりにまたは上述のものに加えて、カスタムおよび/または専用データ通信技術を用いることができる。
図2は、ネットワーク化コンピューティング環境100で用いるのに好適なコンピュータ200の1つの実施形態を示す高レベルブロック図である。チップセット204に結合される少なくとも1つのプロセッサ202を示す。チップセット204は、メモリコントローラハブ250と入出力(I/O)コントローラハブ255とを含む。メモリ206とグラフィックアダプタ213とはメモリコントローラハブ250に結合され、表示装置218はグラフィックアダプタ213に結合される。記憶装置208、キーボード210、ポインティングデバイス214、およびネットワークアダプタ216は、I/Oコントローラハブ255に結合される。コンピュータ200の他の実施形態は、異なるアーキテクチャを有する。たとえば、メモリ206は、ある実施形態ではプロセッサ202に直接に結合される。
記憶装置208は、ハードドライブ、コンパクトディスク読み取り専用メモリ(CD−ROM)、DVD、または固体状態メモリデバイスなどの1つ以上の一時的でないコンピュータ読み取り可能記憶媒体を含む。メモリ206は、プロセッサ202が用いる命令およびデータを保持する。ポインティングデバイス214は、キーボード210と組合せて用いられてデータをコンピュータシステム200に入力する。グラフィックアダプタ213は、表示装置218上に画像および他の情報を表示させる。ある実施形態では、表示装置218は、ユーザ入力および選択を受けるためのタッチ画面能力を含む。ネットワークアダプタ216は、コンピュータシステム200をネットワーク110に結合する。コンピュータ200のある実施形態は、図2に示されるものとは異なるまたはそれに付加的な構成要素を有する。たとえば、グラフィックノベル分析システム120を、本明細書中に記載の機能を提供するようにともに動作する複数のコンピュータ200から形成することができる。別の例として、クライアント装置180はスマートフォンであることができ、画面上キーボード210およびポインティングデバイス214機能性を提供するタッチ画面を含むことができる。
コンピュータ200は、本明細書中に記載される機能性を提供するためのコンピュータプログラムモジュールを実行するように適合される。本明細書中で用いるように、「モジュール」という用語は、特定される機能性を提供するのに用いられるコンピュータプログラム命令または他の論理を指す。このように、モジュールを、ハードウェア、ファームウェア、またはソフトウェア、またはその組合せで実現することができる。1つの実施形態では、実行可能なコンピュータプログラム命令から形成されるプログラムモジュールは、記憶装置208上に記憶され、メモリ206中にロードされ、かつプロセッサ202によって実行される。
例示的なシステム
図3は、グラフィックノベルコーパス110の1つの実施形態を示す。示されるように、グラフィックノベルコーパス110は、グラフィックノベルコンテンツ310と発行者メタデータ320とを含む。グラフィックノベルコーパス110の他の実施形態は、異なるまたは付加的な構成要素を含む。たとえば、グラフィックノベルコンテンツ310と発行者メタデータ320とを別個のエンティティとして示すが、コンテンツとメタデータとの両方に単一のデータ記憶を用いてもよい。
グラフィックノベルコンテンツ310は、コーパス110中のグラフィックノベルのページの画像を含み、1つ以上の一時的でないコンピュータ読み取り可能記憶媒体上に記憶される。前述のように、発行者および著者が直接にグラフィックノベルコンテンツ310を提供することができる、または既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ310を入手することができる。1つの実施形態では、グラフィックノベルコンテンツ310は、完全なグラフィックノベルのPDF文書を含み、PDFの各ページはグラフィックノベルのページの画像を含む。これに代えて、PDFの各ページは、単一のパネルまたは見開き2ページなどの、グラフィックノベルの1ページ超または未満を含んでもよい。別の実施形態では、グラフィックノベルコンテンツ310は、固定レイアウトEPUBファイルとして記憶される。当業者は、グラフィックノベルコンテンツ310を記憶することができる他の形式を認めるであろう。
発行者メタデータ320は、題名、発行日、著者、作画者、発行者、シリーズ、主要キャラクタなどのグラフィックノベルについての情報を含む、グラフィックノベル発行者または著者が提供するメタデータである。既存の印刷済グラフィックノベルをスキャンすることによってグラフィックノベルコンテンツ320を生成する実施形態では、発行者メタデータが存在しないことがある。これに代えて、印刷済グラフィックノベルをスキャンする個人またはエンティティは、(たとえば、スキャンのプロセスの一部として電子形態でタイピングすることによって)発行者メタデータ320を提供することができる。
図4は、グラフィックノベル分析システム120の1つの実施形態を示す。示されるように、グラフィックノベル分析システム120は、トレーニングモジュール410、予測モジュール420、検証モジュール430、および予測モデル記憶440を含む。グラフィックノベル分析システム120の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載されるのとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、グラフィックノベル分析システム120は、予測モデル記憶440を含まなくてもよく、代わりにグラフィックノベルコーパス110に予測モデルを記憶する。別の例として、クラウドソーシングによるフィードバックを用いる実施形態では、検証モジュール430によるものである機能性の一部またはすべてをユーザ装置180のフィードバックモジュール620によって提供してもよい。
トレーニングモジュール410は、グラフィックノベルのトレーニングセットから機械学習モデルを構築する。デジタルグラフィックノベルコンテンツに適用されると、モデルは、その中に含まれる特徴を予測する。1つの実施形態では、トレーニングモジュール410は、ランダムにコーパス110からデジタルグラフィックノベルのサブセットを選択してトレーニングセットとして用いる。他の実施形態では、サブセットは発行者メタデータ320に基づく。たとえば、トレーニングモジュール410は、1つ以上の特徴(たとえば、作画者、発行者、キャラクタなど)についてのある範囲の値を含めて、初期モデルが未知のグラフィックノベル中のそれらの特徴を正確に同定する確率を上昇させるようにサブセットを選択し得る。1つのそのような実施形態では、発行者メタデータを用いて、グラフィックノベルであるデジタル刊行物を同定し、(たとえば、ダウンロード数に基づいて)人気のあるグラフィックノベルのセットを同定し、右から左への読み方を含むか否かに基づいて(たとえば、発行者メタデータに基づいて)当該セットを2つの群に分割し、各群からいくつかのグラフィックノベルをランダムに選択することによってサブセットをポピュレートする。さらなる実施形態では、トレーニングセットを手作業で選択してトレーニングモジュール410に与える。また別の実施形態では、トレーニングデータを参加ユーザからクラウドソーシングして、これによりトレーニングセットは、参加ユーザが読むことを選ぶ、コーパス110からのデジタルグラフィックノベルとなる。
トレーニングモジュール410は、教師トレーニング段階で用いるためのトレーニングセットを準備する。1つの実施形態では、トレーニングモジュール410は、トレーニングセット中のデジタルグラフィックノベルから(たとえば、個別のページに対応する)原画像を抽出する。他の実施形態では、トレーニングモジュール410は画像処理を行なう。1つのそのような実施形態では、トレーニングモジュール410は、各々の原画像の寸法を測り、トレーニングセット中の各々の画像が均一な大きさとなるようにリサイズ演算を適用する。トレーニングモジュール410は、(たとえば、スキャンの際の誤差により)画像が傾いているかどうかも判断し、必要に応じて傾き補正を適用する。他の実施形態では、自動コントラスト機能を適用する、均一平均明るさへ正規化する、自動カラーバランシングを行なうなどの、付加的なまたは異なる画像処理を現画像に適用する。
トレーニングセットがどのように準備されても、トレーニングモジュール410はこれを用いて初期特徴同定モデルを構築する。実施形態の1つの組では、トレーニングモジュール410は、教師トレーニング段階で初期モデルを構築する。1つのそのような実施形態では、人のオペレータは、グラフィックノベルのページの画像を見せられ、パネルおよび吹き出しの場所および順序を示すよう促される。たとえば、オペレータは、ポインティングデバイスを用いて各パネルの周を順序立ててなぞり、ボタンを選択して吹き出しに移動し、各々の吹き出しの周を順になぞり得る。別の実施形態では、オペレータは、閉じたセット(たとえば、非吹き出しテキストの実体(instances)、描かれているかもしれないキャラクタの一覧など)から画像に含まれる他の特徴を選択するようにも依頼される。さらなる実施形態では、オペレータは、自由形式を用いてタグを付与することができる。(たとえば、クラウドソーシングを用いる)また別の実施形態では、オペレータは単に、従来のリーダを用いて行なうようにデジタルグラフィックノベルを読む。オペレータは、スクロール、ズーム、およびページめくりなどのナビゲーションコマンドを用いてグラフィックノベルを読み、トレーニングモジュール410は、オペレータが発するナビゲーションコマンドを記録する。同じグラフィックノベルを読みながら複数のオペレータが行なうナビゲーションの選択を集めることにより、トレーニングモジュール410は、将来の読み手がどのようなコンテンツの提示のされ方をより好むであろうかについての予測モデルを構築することができる。用いられる正確な方法論に拘らず、結果的に、人が同定する特徴を示すメタデータと対にされた一連の画像が得られる。
実施形態の別のセットでは、初期モデルの一部またはすべてを発行者メタデータから構築する。1つのそのような実施形態では、トレーニングセットは、描かれるキャラクタ、著者、作画者、パネルおよび吹き出しの意図される読み順などのある特徴を同定する発行者メタデータを既に含むデジタルグラフィックノベルを含む。このように、トレーニングモジュール410は、印刷済グラフィックノベルをスキャンすることによって作製されるものなどの、対象の特徴を同定する発行者メタデータを含まないデジタルグラフィックノベルに適用することができる発行者メタデータからモデルを構築することができる。
トレーニングモジュール410は、一連の画像と、対にされたメタデータとから初期モデルを構築する。ある実施形態では、モデルは、1つ以上の層の中のノードのセットからなる人工神経回路網である。各ノードは、所与の特徴が入力された画像の中に存在するか否かを予測するように構成され、各層の中のノードは、先の層の中のノードよりも低レベルの抽象度に対応する。たとえば、第1の層の中のノードは、入力された画像が1ページまたは2ページに対応するか否かを判断してもよく、第2の層の中のノードは各ページ中のパネルを同定してもよく、第3の層の中のノードは各パネルの中の吹き出しを同定してもよい。同様に、第1の層のノードはキャラクタの存在を判断してもよく、第2の層のノードはキャラクタのアイデンティティを判断してもよく、第3の層のノードは、(たとえば、キャラクタのアーク中の特に重要なイベントの前または後の)そのキャラクタの特定の時代を判断してもよい。1つの実施形態では、モデルを構築する際にも発行者メタデータを用いる。たとえば、特定のヒーローの存在は、異なる発行者のグラフィックノベルで典型的に見られる異なる悪役よりもむしろ、そのヒーローの強敵が存在する可能性を高める。他の実施形態では、グラフィックモデルなどの他の種類のモデルを用いる。当業者は、一連の画像と対にされたメタデータとから構築されて他の画像の特徴を予測することができる他の種類のモデルを認識し得る。
1つの実施形態では、トレーニングモジュール410は、2段階プロセスを用いて初期モデルを構築する。第1の段階では、入力された画像は、対象の特徴を含むための候補である、画像中の固定された数の領域(たとえば100)を同定する神経回路網を通される。第2の段階では、同定された領域は、対象の特徴のアイデンティティの予測と予測の正しさの対応の確率とを生成する第2の神経回路網を通される。トレーニングモジュール410は次に、予測された特徴のセットを、入力された画像について人が同定した特徴のセットに変形するコストを算出する。
モデルを更新するため、トレーニングモジュール410は、算出された変形コストに基づいて逆伝播アルゴリズムを適用する。アルゴリズムは、神経回路網を通してコスト情報を伝播させ、ノードの重み付けを調整して、入力された画像の特徴を同定する将来的な試みに関連付けられるコストを低減する。たとえば、人が提供する特徴が、特定のキャラクタが画像の中に存在することを含みかつキャラクタが80%の確実さで存在すると神経回路網が予測する場合、相違(または誤差)は20%である。1つの実施形態では、トレーニングモジュール410は、コストを最小化するように、傾斜降下法を適用して、各ノードに適用される重み付けを繰返し調整する。ノードの重み付けは少量ずつ調整され、結果的に得られる変形コストの低減(または増大)を用いて、コスト関数の傾斜(すなわち、ノードの重み付けに対してコストが変化する率)を算出する。トレーニングモジュール410は次に、(傾斜が方向を変えるコスト関数中の変曲点が示す)極少を見出すまで、傾斜が示す方向のノードの重み付けをさらに調整する。換言すると、ノード重み付けは、神経回路網が学習して時間とともにより正確な予測を生成するように調整される。
予測モジュール420は、トレーニングセットの一部ではなかったグラフィックノベルコーパス110からの未トレーニング画像に機械学習モデルを適用する。機械学習モデルは、未トレーニング画像中に含まれる特徴の予測を生成する。1つの実施形態では、未トレーニング画像は数値マッピングに変換される。数値マッピングは、各々が画像の性質を表わす一連の整数値を含む。たとえば、マップ中の整数は、さまざまな色の優位性、縦方向または横方向に色が変化する平均的頻度、平均明るさなどを表わし得る。別の実施形態では、マッピングは、画像中のオブジェクトの座標、確率などの連続した量を表わす実数値を含む。当業者は、画像を数値マッピングに変換可能なさまざまなやり方を認識するであろう。
1つの実施形態では、予測モジュール420は、数値マッピングを入力として神経回路網に与える。第1の層で開始して、ノードは、入力された画像(たとえば、数値マップまたはその一部)に基づいて入力されたデータを受信する。各々のノードは、それが受信する入力データを分析して、それが検出する特徴が入力された画像の中に存在する可能性があるか否かを判断する。特徴が存在すると判断すると、ノードは活性化する。活性化されたノードは、活性化されたノードの重み付けに基づいて入力データを修正し、修正された入力データを神経回路網の次の層の1つ以上のノードに送る。神経回路網中の終端ノードが活性化されると、神経回路網は、その終端ノードに対応する特徴が入力画像の中に存在するという予測を出力する。1つの実施形態では、神経回路網を通じて取った経路に沿って各ノードに割当てられる重み付けに基づいて予測の正しさの百分率確度が予測に割当てられる。
予測モジュール420は、テキストを含むと予測された同定される特徴からテキストも抽出する。1つの実施形態では、予測モジュール420は、各々の吹き出しに光学式文字認識(OCR)アルゴリズムを適用して、その中に示されるテキストを機械可読形態に変換する。パネルおよび吹き出しの予測される順序が与えられると、予測モジュール420(またはグラフィックノベル配信システム130などの別のエンティティ)は、機械可読テキストを予測された意図される読み順に配置することができる。別の実施形態では、予測モジュール420は、パネルに含まれる非吹き出しテキストにもOCRアルゴリズムを適用する。非吹き出しテキストは、高度に様式化されている(たとえば、落書き、行為の誇張表現など)、および/または遠近法の効果(perspetive effects)(たとえば、「カメラ」に対して鋭角であるオブジェクトの側のテキスト)によって歪められていることが多い。予測モジュール420は、OCRアルゴリズムを適用する前に、遠近法の効果による歪みを推定してこれを考慮するなどの付加的な画像処理を適用してもよい。さらに、OCRアルゴリズムは、パネルの文脈(たとえば、描かれるオブジェクトおよびキャラクタ)を用いて精度を向上させることができる。たとえば、描かれるキャラクタの決まり文句は、その決まり文句のわずかな変形よりも、存在する可能性がより高い。別の例として、パネル中に描かれる行為を用いてOCRを改良することができる。たとえば、キャラクタが殴られているのをパネルが描いていれば、パネル中の行為の誇張表現は、(ボカッ、バシッ、バンなどの)語の短い一覧のうち1つを含む可能性がある。ある実施形態では、予測モジュール420がテキストを含むと同定しているがそれについてのOCRがうまくいかない画像の区域にフラグを立てて、人のオペレータがこれを見直し、オペレータは、テキストが存在しないと示す、描かれるテキストを提供する、またはテキストの翻訳を提供する、ことができる。
検証モジュール430は、予測モジュール420が生成する画像の予測された特徴をユーザに提示し、ユーザは、予測された特徴の精度を示す検証情報を与える。1つの実施形態では、検証モジュール430は、正しいという確率が比較的低いもの、または特に重要であると考えられるもの(たとえば、主要キャラクタのアイデンティティ)などの、特に関心のある特徴をユーザに提示する。検証モジュール430は次に、提示された予測された特徴の精度を確認するようユーザを促す。たとえば、検証モジュール430は、画面上に予測された特徴(たとえば、キャラクタ、パネル、または吹き出し)を囲む輪郭線をつけて入力画像を表示し、1つは予測を正しいとして確認するものと、1つは予測が誤っていることを示すものとの2つのコントロールを与えてもよい。このように、検証情報は、予測が正しいか誤っているかの2値の指示である。他の実施形態では、検証モジュール430は、ユーザが、どのようにまたはなぜ予測が誤っているかを示す付加的な検証情報を与えるまたは修正された特徴情報を与えることができるようにするさらなるコントロールを提供する。たとえば、パネルの場所を予測する場合、検証モジュール430は、予測されたパネルの輪郭線のセグメントをユーザが「ドラッグアンドドロップ」して画像中のパネルの場所をより正確に反映できるようにしてもよい。
検証モジュール430は、ユーザが提供する検証情報に基づいて予測を生成するのに用いられるモデルを更新する。1つの実施形態では、検証モジュール430は、トレーニングモジュール410を参照して上述したのと同様の逆伝播アルゴリズムおよび傾斜降下法を用いてモデルを更新する。別の実施形態では、検証モジュール430は、トレーニングモジュール410に否定例(すなわち、以前に予測された特徴を含まないと確認された画像)を与え、トレーニングモジュールは、これらの否定例を用いて、さらなるトレーニングを行なう。換言すると、トレーニングモジュール410は、ある特徴を含まないことがわかっている画像に基づいてもモデルを構築することができる。
予測モデル記憶440は、トレーニングモジュールが生成しかつ検証モジュール430が更新した予測モデルを記憶する1つ以上のコンピュータ読み取り可能記憶媒体を含む。1つの実施形態では、予測モデル記憶440は、グラフィックノベル分析システム120内のハードドライブである。他の実施形態では、予測モデル記憶440は、クラウド記憶設備にまたはグラフィックノベルコーパス110の一部としてなど、どこかに位置する。
図5は、グラフィックノベル配信システム130の1つの実施形態を示す。示されるように、グラフィックノベル配信システム130は、パッケージ化モジュール510、翻訳モジュール520、編集モジュール530、および配信データ記憶540を含む。グラフィックノベル配信システム130の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載するのとは異なる態様で機能を構成要素間に分散させてもよい。たとえば、書籍リーダ180が翻訳を行なう実施形態では、翻訳モジュール520を省略してもよい。
パッケージ化モジュール510は、分析システム120が行なう分析に基づいてグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する。提示メタデータは、機械学習モデルが出力する特徴予測から生成される。前述のように、さまざまな実施形態では、提示メタデータは、特徴ならびに対応の場所および読み順(適切な場合)の一覧、パンおよびズーム命令などのどのようにグラフィックノベルコンテンツを提示すべきかに関する具体的な命令、または両者の組合せを含む。提示メタデータは、グラフィックノベルコンテンツから抽出したテキストも含む。
1つの実施形態では、パッケージ化モジュール510は、一連の順序付けられた画像(たとえば、グラフィックノベルのページあたり1枚の画像)と各画像に対応する提示メタデータとを含む、パッケージ化デジタルグラフィックノベル(たとえば、PDF、またはEPUB領域ベースナビゲーション1.0標準に準拠するものなどの固定レイアウトEPUBファイル)を作成する。所与の画像のメタデータは、デジタルグラフィックノベル分析システム120が同定するその画像の特徴を同定し、パネルおよび吹き出しの場所と読み順とを含む。メタデータは、吹き出しについて予測された順序での、吹き出しに含まれるテキストのプレーンテキスト表示も含む。別の実施形態では、メタデータは、吹き出しであるとは予測されなかったパネルの部分から抽出されるテキスト(たとえば、画像中の標識からのテキスト)と、その画像中のテキストの場所の指示とをさらに含む。他の実施形態では、特徴は、代替的にまたは付加的に、キャラクタ、雰囲気、天気、オブジェクト、作画者、著者、発行の年または時代などを含む。
さらなる実施形態では、提示メタデータは、特徴のうちいくつかまたはすべてを明示的に同定するよりもむしろ、どのように書籍リーダ180が画像を提示すべきかを記述する。たとえば、提示メタデータは、吹き出しの場所および順序を同定する代わりに、所望の順にユーザの注意が吹き出しに向けられるように、ズームレベルの変更のセットおよび閲覧窓の中心を記述することができる。提示のさまざまな方法を図6を参照して以下に詳細に説明する。
翻訳モジュール520は、グラフィックノベルコンテンツ中に同定されるテキストを他の言語に翻訳する。翻訳モジュール520は、予測モジュール420が同定した特徴を活かして(leverage)翻訳を改良する。1つの実施形態では、翻訳モジュール520は、提示メタデータを更新または補足してテキストの翻訳を含める。ある実施形態では、書籍リーダ180が翻訳機能性を果たすことに留意されたい。ある実施形態では、書籍リーダ180は、提示メタデータを更新するよりもむしろ、翻訳テキストをローカルに(たとえばRAMに)記憶してもよい。
1つの実施形態では、翻訳モジュール520は、吹き出しから抽出した機械可読テキストに機械翻訳アルゴリズムを適用する。予測された意図される読み順は、翻訳を支援する文脈情報を提供する。たとえば、一対の吹き出しが質問と答えとを含む場合、質問の内容が答えの翻訳を知らせることができ、その逆も然りである。この具体例として、答えが矢を放つと参照する場合、質問の中の「bow」という語は、結んだリボンではなく、矢を放つためのオブジェクトを参照する可能性がある。他の実施形態では、代替的にまたは付加的に他の予測された特徴を用いて翻訳を支援する。たとえば、パネル中に特定のキャラクタが同定されると、キャラクタの決まり文句および話し方を考慮してそのパネル中のテキストを翻訳することができる。1つのそのような実施形態では、用いられる機械翻訳アルゴリズムは、特定のキャラクタを含むコンテンツ、特定の著者によるコンテンツ、特定の発行者からのコンテンツなどのうち1つ以上の翻訳向けに誂えられる。別の実施形態では、パネル中に描かれる行為を用いて視覚的誇張表現の翻訳を支援する。たとえば、キャラクタが殴られているのをパネルが描いていれば、近くの視覚的誇張表現を殴打音の適切な語に翻訳することができる。
翻訳モジュール520が非吹き出しテキストを翻訳する実施形態では、翻訳モジュール520は、吹き出しテキストを参照して上述したような文脈情報を同様に用いる。たとえば、パネル中に描かれる標識上のテキストを翻訳する場合、翻訳モジュール520は、そのパネル中に含まれる吹き出し全部の中のテキストと、描かれる他のキャラクタおよびオブジェクトとを考慮し得る。より具体的な例として、パネルが特定のキャラクタを描きかつ吹き出しの中のテキストが特定の街を参照する場合、パネル中の標識の上のテキストは、無関係の場所よりもその街の場所に対応する可能性がより高い。
編集モジュール530を含む実施形態では、これは、ユーザ(たとえば、著者または発行者)がパッケージ化デジタルグラフィックノベルに含まれる提示メタデータを見直すおよび改定するツールを提供する。1つのそのような実施形態では、編集モジュール530は、対応の翻訳テキストとともに、ユーザがデジタルグラフィックノベル中の画像を選択しかつ閲覧できるようにするブラウザを提供する。ユーザが画像を選択すると、ブラウザは、検出されたテキストオブジェクト(たとえば吹き出し)の指示とともに、画像を表示する。ユーザがテキストオブジェクトを選択すると、編集モジュール530は対応のテキストの翻訳を表示し、ユーザが(たとえば、キーボードを用いて訂正をタイプすることによって)翻訳を編集できるようにする。次に応じて提示メタデータを編集する。
配信データ記憶540は、パッケージ化デジタルグラフィックノベルを記憶する1つ以上のコンピュータ読み取り可能媒体である。ある実施形態では、配信データ記憶540は、デジタルグラフィックノベル配信システムのための機能を提供するサーバファームに位置する。1つのそのような実施形態では、配信システムは、(たとえば、ユーザプロファイルの一部として提供されるような)ユーザの興味と、提示メタデータが同定するグラフィックノベルの特徴との間の相関に基づいてデジタルグラフィックノベルをユーザに勧める。たとえば、ユーザがあるラインのデジタルグラフィックノベルに特定の興味を有する場合、配信システム540は、同じキャラクタのうちいくつかを含む異なるラインからのデジタルグラフィックノベルを勧めることがある。
以上の説明に加えて、本明細書中に記載のシステム、プログラム、または特徴がユーザ情報(たとえば、ユーザの興味、社会的ネットワーク、社会的行為または活動、職業、嗜好、現在の場所などについての情報)の収集を可能にし得るか否か、およびいつ可能にし得るかの両方についての選択をユーザが行なえるようにするコントロールをユーザに提供してもよい。コンテンツまたは通信がサーバ(たとえば、グラフィックノベル配信システム130)からユーザの書籍リーダ180に送られるか否かをユーザが制御できるようにするコントロールもユーザに提供してもよい。さらに、あるデータを、それを記憶するまたは用いる前に1つ以上のやり方で処理してもよく、これにより個人を特定できる情報が除去される。たとえば、ユーザについての個人を特定できる情報を判断することができないようにユーザのアイデンティティを処理してもよく、または、ユーザの特定の場所を判断することができないように、(市、郵便番号、または州レベルなどの)場所情報が得られるユーザの地理的場所を一般化してもよい。このように、ユーザは、ユーザについてのどの情報が収集されるか、その情報がどのように用いられるか、およびどの情報がユーザに提供されるかについてのコントロールを有してもよい。
1つの実施形態では、グラフィックノベル配信システム130は、著作権を侵害するデジタルグラフィックノベルを同定するためのツールも提供する。デジタルグラフィックノベルが特定のキャラクタを含有すると機械学習モデルが誤って予測すると、そのことは、実際に描かれるキャラクタが特定のキャラクタの著作権侵害になると示してしまうことがある。たとえば、競合する発行者が意図的に特定のキャラクタとほぼ同一のキャラクタを作成すると、機械学習モデルは、それを特定のキャラクタであると当初は予測する可能性がある(モデルがフィードバックを介して更新されるまで、および複製が特に甚だしい場合は、そのときですら2つを区別することが難しくなるかもしれない)。1つの実施形態では、中程度の範囲の確実さ(たとえば50%から70%)内の予測が潜在的な侵害としてフラグ付けされる。というのも、この範囲は、同一性についての十分な類似度が存在するが、予測においてはかなりの程度の不確実さが存在するという相違も十分あることを示すからである。フラグ付けされたキャラクタは次に、人(たとえば、被侵害の恐れがある著作権所有者の従業員)に送られて検討される。他の実施形態では、配信システム130は、未ライセンス翻訳を検出するための他のツールを提供する。たとえば、未ライセンス翻訳のテキストと公式自動翻訳版のテキストとの間の類似性によって未ライセンス翻訳を同定することができる。
図6は、書籍リーダ180の1つの実施形態を示す。示されるように、書籍リーダ180は、グラフィックノベル表示モジュール610、フィードバックモジュール620、およびローカルデータ記憶630を含む。書籍リーダ180の他の実施形態は、異なるまたは付加的な構成要素を含む。さらに、本明細書中に記載のものとは異なる態様で構成要素間で機能を分散させてもよい。たとえば、ある実施形態では、フィードバックモジュール620が省略される。
表示モジュール610は、それを用いてパッケージ化モジュール510によってパッケージ化された提示メタデータに基づいてデジタルグラフィックノベルコンテンツをユーザに提示する。さまざまな実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序ならびにそれらの吹き出し中のテキストの翻訳を示す。表示モジュール610は示された順序でパネルを提示して、吹き出しの中のテキストを翻訳テキストで置換える。1つのそのような実施形態では、表示モジュール610は、まず、書籍リーダ180の画面上に(提示メタデータ中に示されるような)最初のパネルを表示する。ユーザ入力(たとえば、画面をタップする、または「次パネル」アイコンを選択する)に応答して、表示モジュール610は、提示メタデータから次にどのパネルを表示すべきかを判断し、画面上の表示をその第2のパネルに遷移させる。(たとえば、画面をタップする、または「次パネル」アイコンを選択することによって)前に進むようにユーザが要求するたびに、表示モジュール610は提示メタデータを調べて、どのパネルを次に表示すべきかを判断し、それに応じて画面上の表示を更新する。パネルを順次提示するためのこの方法により、各パネルが全画面表示されるようになり、これは、画面が小さな書籍リーダ180では特に有用である。
各々のパネルを表示する際、表示モジュール610は、(原語での)吹き出し中の元のテキストを(たとえば、ユーザが要求するものなどの異なる言語の)翻訳テキストで置換える。さまざまな実施形態では、表示モジュールは、背景色(通常は白)を同定し、吹き出し全体を背景色で塗りつぶすことによって吹き出しを「真っ白にする」。表示モジュール610は次に、提示メタデータ中に含まれる吹き出しの翻訳テキストを吹き出しに追加する。1つの実施形態では、表示モジュール610は、追加されるテキストにデフォルトのフォントおよびサイズを用いる。別の実施形態では、表示モジュール610は、(たとえば、お気に入り画面で選択されるような)ユーザが選択したフォントを用い、翻訳テキストが実質的に吹き出しを埋めるようにフォントサイズを選択する。さらなる実施形態では、表示モジュール610は、翻訳テキストのサイズおよびフォントを元のテキストに一致させる。
ある実施形態では、表示モジュール610は、提示メタデータが示すように、吹き出しの場所および順序に従ってデジタルグラフィックノベルを提示する。1つのそのような実施形態では、表示モジュール610は、提示メタデータに示される順序で各々の吹き出しを表示し、テキストの読みやすさと文脈を与えるのに十分な量の周囲イメージを提供することとのバランスを取るズームレベルを選択する。表示モジュール610は、用いるズームレベルを選択することができる、またはこれを提示メタデータに含めることができる。表示モジュール610は、ユーザ入力(たとえば、画面をタップすること、または「次の吹き出し」コントロールを選択すること)に応答して、(提示メタデータに示されるように)1つの吹き出しから次の吹き出しへ進む。別の実施形態では、提示メタデータは、まず画面上に全パネル(またはページ)を提示し、次に各々の吹き出しに順次ズームインするよう表示モジュール610に指示する。
また別の実施形態では、完全なパネルまたはページを画面上に表示し、(順序またはユーザ選択に基づいて)選択された吹き出しに対応する画像の区域のみを拡大する。まず、表示モジュール610は、画面にズームすることなく全パネルを表示する。読み手が「次の吹き出し」コントロールを選択すると、(提示メタデータが示すような)第1の吹き出しを含む画像の区域が拡大され、読み手は、(たとえばスクロールバーを用いて)その吹き出しの中のテキストを読み進むことができる。しかしながら、吹き出しを含まない画像の残余は拡大されないままである。このように、読み手は、1つのビューと別のビューとの間を切換える必要なく、テキストを読み、パネル中の画像の残余が与える文脈情報を得ることができる。
ある実施形態では、表示モジュール610は、非吹き出しテキスト(たとえば、標識上に含まれるテキスト、音響効果の視覚的誇張表現など)の翻訳を表示する。1つのそのような実施形態では、提示メタデータは、非吹き出しテキストを含むパネルの一部を示す。ユーザが(たとえば画面の一部をタップすることによって)その部分を選択すると、元の画像に関連して非吹き出しテキストの翻訳が表示される。たとえば、画面のいちばん下のテキストバーに、または元の画像に重なるポップアップ吹き出しの中に翻訳テキストを表示してもよい。
他のそのような実施形態では、表示モジュール610は、画像に画像処理を施して元の非吹き出しテキストを翻訳テキストで置換える。1つの実施形態では、表示モジュール610は、背景色、テキストの色、テキストのスタイル、テキストのサイズ、テキストの向き、テキストの見え方(perspective)(すなわち、ページの平面に対する向き)などの元の非吹き出しテキストの性質を同定する。次に表示モジュール610は、吹き出しを参照して上述したのと同様の態様で標識を「真っ白」にして、同様の性質を有する(たとえば、同じ色、元のスタイルと同様のフォントを用いて、同じ向きで)翻訳テキストを追加する。当業者は、画像を変更して非吹き出しテキストをその翻訳で置換えることができる他の態様を認識し得る。
フィードバックモジュール620はインターフェイスを提供し、ユーザは、これを用いて、デジタルグラフィックノベルの提示に関するフィードバックを提供することができる。さまざまな実施形態では、フィードバックモジュール620は、提示に関する問題を報告するのにユーザが選択することができる表示装置の画面上の仮想ボタンを設ける。たとえば、翻訳テキストが意味をなさない、不正確である、拙い、またはそれ以外で不十分であれば、ユーザは、ボタンを押して、問題を記述する(たとえば、よりよい翻訳を提案する)短いフィードバック書式を完成させることができる。1つのそのような実施形態では、提示メタデータはローカルに更新されるので、ユーザが再びデジタルグラフィックノベルを読むときには、(ユーザがそれを提供したと仮定すると)ユーザが改良した翻訳が提示される。別のそのような実施形態では、フィードバックモジュール620は、提示メタデータを全システムにわたって更新してよりよい翻訳を含めるべきか否かを判断する見直しのために、グラフィックノベル配信システム130の管理者にフィードバックを送る。また別の実施形態では、フィードバックをグラフィックノベル分析システム120に与え、グラフィックノベル分析システムは、これを用いて、まず翻訳を提供した機械翻訳アルゴリズムを更新する。ある実施形態では、フィードバックモジュール620は、OCRまたは自動翻訳がうまくいかなかったテキストの一部の翻訳をクラウドソーシングする。たとえば、画像の領域がテキストを含有すると予測されたが、認識可能なキャラクタの同定にOCRが失敗した場合、フィードバックモジュール620は、問題の画像の部分をハイライトして、テキストが存在するかどうかを示すよう、かつ存在する場合は翻訳を提供するよう、ユーザを促し得る。
ローカルデータ記憶630は、デジタルグラフィックノベル、デジタルグラフィックノベルコンテンツ、および提示メタデータを表示するためのソフトウェアを記憶する1つ以上のコンピュータ読み取り可能媒体である。1つの実施形態では、ユーザは、提示メタデータを含むパッケージ化デジタルグラフィックノベルをオンライン市場からローカルデータ記憶630にダウンロードする。提示モジュール610は次に、ローカルデータ記憶630からパッケージ化デジタルグラフィックノベルにアクセスする。別の実施形態では、パッケージ化デジタルグラフィックノベルは、(たとえばクラウドサーバに)遠隔に記憶され、表示モジュール610はネットワーク170を介してこれにアクセスする。
例示的な方法
図7は、デジタルグラフィックノベルの自動翻訳を提供する方法を提供する方法700の1つの実施形態を示す。図7は、方法700のステップをネットワーク化コンピューティング環境100のさまざまな構成要素によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
図7に示される実施形態では、方法700は、トレーニングモジュール410がデジタルグラフィックノベルの特徴を予測的に同定するためのモデルを構築すること710で開始する。前述のように、モデルはまず、教師学習段階で構築され710、その間に人のオペレータがコーパス110から選択されるデジタルグラフィックノベルのサブセット中の特徴を同定する。モデルを構築する710ための方法800の1つの実施形態を図8を参照して以下に詳細に説明する。
予測モジュール420は、デジタルグラフィックノベルコンテンツにモデルを適用して720、その中に含まれる特徴を予測する。1つの実施形態では、特徴は、デジタルグラフィックノベル内のパネルおよび吹き出しの場所と順序とを含む。他の実施形態では、予測モジュール420は、非吹き出しテキスト、好ましい遷移、描かれるオブジェクト、作画者、著者、描かれるキャラクタ、天気、雰囲気、あらすじ、テーマ、広告などの異なるまたは付加的な特徴を同定する。
検証モジュール430は、人による見直しに基づいてモデルが行なう予測を検証する730。1つの実施形態では、検証730は、モデルの初期トレーニングの一部として行なわれる。別の実施形態では、読み手から検証フィードバックがクラウドソーシングされ、受けたフィードバックに基づいて連続してまたは周期的にモデルが更新される。たとえば、検証モジュール430は、1ヶ月の期間にわたってクラウドソーシングされたフィードバックを集め、次に期間の終わりに更新モデルを発生させてもよい。モデルを検証する730および更新するための方法900の1つの実施形態を図9を参照して以下に詳細に説明する。
パッケージ化モジュール510は、グラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成する740。提示メタデータは、検証モジュール430から受信した検証済予測(または予測モジュール420から直接に受信した予測)に基づいて、パッケージ化モジュール510によって生成され、さまざまな特徴(たとえば吹き出し)に関連付けられる未翻訳テキストを含む。1つの実施形態では、提示メタデータは、モデルが予測するような各々のパネルの中の吹き出しの場所および順序と、OCRアルゴリズムが判断するような各々の吹き出しの中に含まれるテキストとを示す。前述のように、他の実施形態では、提示メタデータは、予測に基づく具体的な提示命令を与える、または、提示とパッケージ化デジタルグラフィックノベルを表示する際に書籍リーダ180がさらに処理する特徴の場所および性質を示すものとの組合せを用いる。
翻訳モジュール520は、特徴のテキスト、または対応の提示メタデータがそれについてのテキストを含む特徴のセットを翻訳する750。前述のように、テキストを含む特徴(たとえば吹き出し)の場所および順序ならびに他の予測される特徴へのその近さ(たとえば、特定のキャラクタと同じパネルに含まれている)は、翻訳モジュール520が翻訳を支援するのに用いる文脈情報を提供する。1つの実施形態では、翻訳モジュール520は、パッケージ化デジタルグラフィックノベルの一部(たとえば、パネル、ページなど)の中の吹き出し全部を同定し、吹き出しについて提示メタデータが示す順序で、各々の吹き出しのメタデータに含まれる機械可読テキストを1つのテキストにコンパイルする。次に翻訳モジュール520は、1つのテキスト全体を翻訳する。次に翻訳モジュール520は、テキストを各々の吹き出しに対応するセグメントに再び分け、吹き出しに対応する提示メタデータを更新し、テキストを翻訳テキストで置換えるまたは補足する。たとえば、翻訳テキストを、それが翻訳でありかつ翻訳された言語であることを示すタグで囲んで、元のテキストの後に添えてもよい。
パッケージ化デジタルグラフィックノベルは、提示メタデータが示す態様に従う提示のために書籍リーダ180に提供される760。1つの実施形態では、提示メタデータは、パネルおよび吹き出しの場所および順序と、吹き出しについての(翻訳モジュール520が生成するような)翻訳テキストとを示す。デジタルグラフィックノベルを提示する正確な態様は、(たとえば、ユーザの閲覧の好みに基づいて)書籍リーダ180によってローカルに決められる。このように、異なる書籍リーダ180は、同じデジタルグラフィックノベルを異なるように提示することができる。別の実施形態では、提示メタデータは、デジタルグラフィックノベルを提示すべき態様を記述する命令を含む。結果的に、書籍リーダ180は、提示メタデータが指令するようにデジタルグラフィックノベルを提示する。
図8は、予測モデルを構築するための方法800の1つの実施形態を示す。図8は、方法800のステップをトレーニングモジュール410によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
図8に示される実施形態では、方法800は、トレーニングモジュール410が、コーパス110からデジタルグラフィックノベルのサブセットを同定して810、トレーニングセットとして用いることで開始する。上述のように、図4を参照して、サブセットは、ランダムに選択されても、または特性の所望の混合(たとえば、さまざまな異なる発行者および著者、さまざまなキャラクタなど)を有するように選ばれてもよい。
図8に戻って、トレーニングモジュール410は、トレーニングセット中のデジタルグラフィックノベルから(たとえば、個別のページに対応する)原画像を抽出する820。1つの実施形態では、トレーニングに備えて原画像を処理する。たとえば、均一の寸法を有するように原画像をリサイズすることができ、トレーニングセットにわたる均一性を与えるために明るさおよびコントラストの設定を変更することができる。
行なわれる任意の前処理に拘らず、トレーニングモジュール410は、教師トレーニング段階を開始して830、原画像の特徴を同定する。上述のように、図4を参照して、教師トレーニング段階では、人のオペレータが、処理された画像(または、処理が行なわれなかった場合には原画像)の特徴を同定する。このように、教師トレーニング段階の終結時に、トレーニングモジュール410は、各々が画像が含む特徴を示す対応のメタデータと対にされた画像のセットを有する。
教師トレーニング段階の間に生成されるトレーニングセットおよび対応のメタデータに基づいて、トレーニングモジュール410は、デジタルグラフィックノベルの特徴を予測的に同定するためのモデルを作成する840。1つの実施形態では、モデルは、パネルの場所および順序と、描かれるキャラクタのアイデンティティとを予測的に同定する神経回路網である。モデルはトレーニングセットから構築されたので、トレーニングセット中のデジタルグラフィックノベルのうち任意のもの(または少なくとも大部分)が提供されると、これは、パネル場所、パネル順序、および描かれるキャラクタを正確に同定する。このように、同じ神経回路網が以前にそれが未適用のデジタルグラフィックノベルに適用されると、パネルと描かれるキャラクタとを成功裏に同定する確率が合理的に高くなる。モデルを成功裏に作成すると840、トレーニングモジュール410はこれを予測モデル記憶440に記憶する850。
図9は、フィードバックに基づいて予測を検証する方法900の1つの実施形態を示す。図9は、方法900のステップを予測モジュール420および検証モジュール430によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順で行なう、または異なるステップを行なうことがある。
図9に示される実施形態では、方法900は、予測モジュール420が分析対象の画像を受信すること910で開始する。予測モジュール420は、予測モデルを画像(たとえば、図8の方法を用いて生成されたもの)に適用して920、画像特徴の1つ以上の予測を発生させる。明瞭さのため、画像中のパネルの場所、パネルの順序、および各々のパネルに描かれるキャラクタについての予測をモデルが生成する実施形態を参照して図9の残余を説明する。明細書の残余に鑑みて、当業者は、多数の他の特徴および特徴の組合せに関する予測をモデルが生成し得ることを認識するであろう。
検証モジュール430は、予測モジュールが行なった予測が正しいか否かを示すフィードバックを取得する930。前述のように、フィードバックは、開発の際にモデルをトレーニングするという作業を課されたオペレータからのものであることができる、または実用化の後にユーザからクラウドソーシングされることができる。1つの実施形態では、フィードバックは2値であり、予測が正しいか誤っているかを示す。他の実施形態では、フィードバックは、予測が誤っていた場合の訂正も含む。たとえば、予測されたフレームの場所が誤っている場合、フィードバックはフレームの正しい場所を示すことができる。同様に、フィードバックは、フレームの正しい順序を与えることができる。さらに、モデルがキャラクタを誤って同定すると、フィードバックは正しいキャラクタ同定を与えることができる。
取得される930フィードバックの具体的な性質に拘らず、検証モジュール430は、これを用いてモデルを更新する940。図4を参照して上述したように、1つの実施形態では、傾斜降下法を用いる逆伝播アルゴリズムを用いてモデルを更新する。このように、フィードバックの量が多くなる(accounted for)につれて、モデルが生成する予測の精度が時間とともに向上する。
図10は、同定された特徴から生成される文脈情報を用いて翻訳を支援する方法1000の1つの実施形態を示す。図10は、方法1000のステップを翻訳モジュール520によるものとする。しかしながら、ステップの一部またはすべてを他のエンティティによって行なってもよい。たとえば、ある実施形態では、書籍リーダ180が翻訳を行なう。さらに、ある実施形態は、ステップを並列に行なう、ステップを異なる順に行なう、または異なるステップを行なうことがある。
図10に示される実施形態では、方法1000は、翻訳モジュール520がデジタルグラフィックノベルコンテンツを受信する1010ことで開始する。翻訳モジュール520は次に、デジタルグラフィックノベルコンテンツの特徴を同定する1020.同定される特徴のうち少なくとも1つはテキストを含む。1つの実施形態では、翻訳モジュール520は、デジタルグラフィックノベルコンテンツとともにパッケージ化される提示メタデータに基づいて、いくつかの吹き出しおよびそれらの吹き出しの意図される読み順を同定する1020。これに代えて、翻訳プロセスの一部として(前述のような)機械学習モデルの適用を行なう。さらなる実施形態では、翻訳モジュール410は、前述のように、標識などのテキストを含む非吹き出し特徴を同定する1020。
翻訳モジュール520は、同定される特徴に基づいてテキストを含む特徴または複数の特徴についての文脈情報を生成する1030。1つの実施形態では、テキストを含む特徴は吹き出しであり、それら吹き出しについての文脈情報は、提示メタデータに示されるようなそれらの意図される読み順である。他の実施形態では、文脈情報は、吹き出し近くのデジタルグラフィックノベルのパネルの中に描かれていると提示メタデータ中に同定されるキャラクタおよびオブジェクトを含む。1つのそのような実施形態では、吹き出しと同じパネルの中に含まれる特徴のみがその吹き出しについての文脈情報を提供すると考えられる。他のそのような実施形態では、吹き出しを含むパネルのしきい値距離内の(たとえば、判断されたパネルの読み順が示すような、吹き出しを含むパネルの前後の3枚のパネル内の)他のパネルの特徴が文脈情報に寄与する。1つの実施形態では、吹き出しについての文脈情報としての所与の特徴の影響は、吹き出しに対するその特徴の近さによって重み付けられ、吹き出しにより近い特徴ほど、より離れたものよりも大きな重みが与えられる。
図10に示される実施形態では、方法1000は、翻訳モジュール520が1つ以上の特徴に含まれるテキストを翻訳すること1040で終結する。1つの実施形態では、翻訳モジュール520は、テキストを含んだそれらの特徴からテキストを抽出し、文脈情報によって支援される機械翻訳アルゴリズムを適用する。たとえば、翻訳モジュール520は、吹き出しの意図される読み順を活かして翻訳を改良することができる。前述のように、1つの吹き出しの中で用いられる語および句は、その前後の吹き出しの正しい翻訳についての手がかりを与えることができる。別の例として、吹き出しが特定のキャラクタと同じパネル内に含まれる場合、そのキャラクタに係る対話を翻訳するように特に合わせられた機械翻訳アルゴリズムを適用することができる。当業者は、テキストの翻訳を支援するのに用い得る文脈情報の他の形態を認識し得る。
付加的な考察
以上の説明のある部分は、アルゴリズム的プロセスまたは動作の観点で実施形態を説明する。これらのアルゴリズム的説明および表示は、データ処理技術分野の当業者によって一般的に用いられて、その成果(work)の実態を効果的に他の当業者に伝える。これらの動作は、機能的、計算的、または論理的に説明されるが、プロセッサまたは均等の電気回路による実行のための命令、マイクロコードなどを備えるコンピュータプログラムによって実現されることが理解される。さらに、普遍性を失わなければ、時には、機能的動作のこれらの配置をモジュールと称することが好都合であることもわかっている。記載される動作およびその関連のモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組合せで具現化されてもよい。
本明細書中で用いるように、「1つの実施形態」または「実施形態」に対する任意の参照は、実施形態に関連して説明される特定の要素、特徴、構造、または特性が少なくとも1つの実施形態に含まれることを意味する。「1つの実施形態では」という句が明細書中のさまざまな場所に現われても、必ずしもすべてが同じ実施形態を参照するわけではない。
「結合される」および「接続される」という表現をそれらの派生語とともに用いてある実施形態を説明することがある。これらの用語は、互いに対する同義語として意図されるものではないことを理解すべきである。たとえば、2つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「接続される」という用語を用いてある実施形態を説明することがある。別の例では、2つ以上の要素が互いと直接に物理的または電気的に接していることを示すのに、「結合される」という用語を用いてある実施形態を説明することがある。しかしながら、「結合される」という用語は、2つ以上の要素が互いと直接に接しているのではなく、依然として互いと協働するまたは相互作用することも意味することがある。実施形態はこの文脈において限定されない。
本明細書中で用いるように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」という用語、またはその任意の他の変形は、非排他的含有をカバーすることが意図される。たとえば、要素の一覧を備えるプロセス、方法、物品、または機器は、それらの要素のみに必ずしも限定されるのではなく、明示的に列挙されないまたはそのようなプロセス、方法、物品、または機器に内在的でない他の要素を含むことがある。さらに、そうでないと明示的に述べていなければ、「または」は、排他的なまたはではなく、包括的なまたはを指す。たとえば、条件AまたはBは、Aが真であり(または存在し)Bが偽である(または存在しない)、Aが偽であり(または存在せず)Bが真である(または存在する)、およびAとBとの両者が真である(または存在する)のうち任意の1つによって満たされる。
さらに、「a」または「an」の使用は、本明細書中の実施形態の要素および構成要素を記載するのに用いられる。これは、便宜上、開示の一般的な意味を与えるためにのみ行なわれる。この記載は、1つまたは少なくとも1つを含むように解釈されるべきであり、反対の意味であるということが自明でなければ単数形は複数も含む。
この開示を読むと、当業者は、インデックス付けされたeブック注釈を与えるためのシステムおよびプロセスのためのさらに付加的な代替的構造および機能設計を認めるであろう。このように、特定の実施形態および適用例を示しかつ記載したが、記載される主題は、本明細書中に開示される正確な構成および構成要素に限定されるのではなく、当業者には明らかであろうさまざまな修正、変更、および変形が本明細書中に開示される方法および機器の配置、動作、および詳細においてなされてもよいことを理解すべきである。発明の範囲は、以下の請求項によってのみ限定されるものである。

Claims (19)

  1. 方法であって、
    少なくとも1つのプロセッサによってデジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信することと、
    前記少なくとも1つのプロセッサによって、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定することと、
    前記少なくとも1つのプロセッサによって、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定することとを備え、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み、
    前記少なくとも1つのプロセッサによって、前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第1の自然言語から第2の自然言語に自動的に翻訳して翻訳テキストを作成することとを備え、 前記テキストを自動的に翻訳することは、
    前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを1つのテキストにコンパイルすることと、
    前記1つのテキストを前記第1の自然言語から前記第2の自然言語に翻訳して前記翻訳テキストを作成することと、
    前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
    前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することとを含む、方法。
  2. 前記テキストを自動的に翻訳することは、
    前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに適用することを備える、請求項1に記載の方法。
  3. 前記方法は、前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成することをさらに備え、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも1つの特徴の指示とを含み、前記方法はさらに、
    前記少なくとも1つのプロセッサによって、前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供することを備える、請求項1または2に記載の方法。
  4. 前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項に記載の方法。
  5. 吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定することは、
    前記少なくとも1つのプロセッサによって、前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
    前記数値マップを機械学習モデルの第1の人工神経回路網に入力することに応答して、前記少なくとも1つのプロセッサによって、前記第1の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとを備える、請求項1からのいずれか1項に記載の方法。
  6. テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定することは、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記少なくとも1つのプロセッサによって、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を受信することを備える、請求項に記載の方法。
  7. 電子装置であって、前記電子装置は、
    少なくとも1つのプロセッサと、
    命令を記憶する一時的でないコンピュータ読み取り可能記憶媒体とを備え、前記命令は、実行されると、前記少なくとも1つのプロセッサを、
    デジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信し、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定し、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定するように構成されており、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み、
    前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第1の自然言語から第2の自然言語に自動的に翻訳して翻訳テキストを作成する、ように構成されており、
    前記提示メタデータは、各前記吹き出しのコンテンツのプレーンテキスト表示を含み、
    前記命令は、実行されると、前記少なくとも1つのプロセッサに、少なくとも、
    前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを1つのテキストにコンパイルすることと、
    前記1つのテキストを前記第1の自然言語から前記第2の自然言語に翻訳して前記翻訳テキストを作成することと、
    前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
    前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することと、によって、
    前記テキストを自動的に翻訳するように構成されている、電子装置。
  8. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項に記載の電子装置。
  9. 前記命令は、実行されると、前記少なくとも1つのプロセッサをさらに、
    前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するように構成し、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも1つの特徴の指示とを含み、前記命令は、実行されると、前記少なくとも1つのプロセッサをさらに、
    前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供するように構成する、請求項7または8に記載の電子装置。
  10. 前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項に記載の電子装置。
  11. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、少なくとも、
    前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
    前記数値マップを機械学習モデルの第1の人工神経回路網に入力することに応答して、前記第1の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとによって、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定するように構成する、請求項7〜10のいずれか1項に記載の電子装置。
  12. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項11に記載の電子装置。
  13. 命令を記憶するコンピュータ読み取り可能記憶媒体であって、前記命令は、実行されると、少なくとも1つのプロセッサを、
    デジタルグラフィックノベルコンテンツおよび当該デジタルグラフィックノベルコンテンツの提示態様を規定する提示メタデータを受信し、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの複数の候補領域を判定し、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域から、テキストを含む複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの特徴を判定するように構成されており、前記提示メタデータは前記複数の吹き出しの意図される読み順を含み
    前記デジタルグラフィックノベルコンテンツの前記特徴に基づいて、前記複数の吹き出しの意図される読み順を生成し、
    前記複数の吹き出しの前記意図される読み順に少なくとも部分的に基づいて、前記複数の吹き出しに含まれる前記テキストを第1の自然言語から第2の自然言語に自動的に翻訳して翻訳テキストを作成する、ように構成されており、
    前記テキストを自動的に翻訳することは、
    前記複数の吹き出しに含まれる前記テキストを抽出した後に、前記意図される読み順に基づいて前記テキストを1つのテキストにコンパイルすることと、
    前記1つのテキストを前記第1の自然言語から前記第2の自然言語に翻訳して前記翻訳テキストを作成することと、
    前記生成された翻訳テキストを各前記吹き出しに対応する複数のセグメントに分けることと、
    前記テキストを補足するように、当該セグメントに分けられた翻訳を当該テキストの近傍に表示するために、または、前記テキストを当該セグメントに分けられた翻訳に置き換えるために、前記提示メタデータを更新することとを含む、コンピュータ読み取り可能記憶媒体。
  14. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記デジタルグラフィックノベルコンテンツに含まれる描かれるキャラクタまたはオブジェクトに合わせた翻訳アルゴリズムを前記複数の吹き出しに含まれる前記テキストに少なくとも適用することによって前記テキストを自動的に翻訳するように構成する、請求項13に記載のコンピュータ読み取り可能記憶媒体。
  15. 前記命令は、実行されると、前記少なくとも1つのプロセッサをさらに、
    前記デジタルグラフィックノベルコンテンツと提示メタデータとを含むパッケージ化デジタルグラフィックノベルを作成するように構成し、前記提示メタデータは、前記翻訳テキストと、前記翻訳テキストが対応する前記デジタルグラフィックノベルコンテンツの前記特徴のうち少なくとも1つの特徴の指示とを含み、前記命令は、実行されると、前記少なくとも1つのプロセッサをさらに、
    前記パッケージ化デジタルグラフィックノベルを、前記提示メタデータに従った態様で前記デジタルグラフィックノベルコンテンツを提示するように構成される書籍リーダに提供するように構成する、請求項13または14に記載のコンピュータ読み取り可能記憶媒体。
  16. 前記書籍リーダは、前記複数の吹き出しに含まれる前記テキストの代わりに前記複数の吹き出し内の前記翻訳テキストを表示するように構成される、請求項13〜15のいずれか1項に記載のコンピュータ読み取り可能記憶媒体。
  17. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、少なくとも、
    前記デジタルグラフィックノベルコンテンツから抽出した画像を表わす数値マップを発生させることと、
    前記数値マップを機械学習モデルの第1の人工神経回路網に入力することに応答して、前記第1の人工神経回路網から、吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を受信することとによって、
    吹き出しを含む可能性がある前記デジタルグラフィックノベルコンテンツの前記複数の候補領域を判定するように構成する、請求項13〜16のいずれか1項に記載のコンピュータ読み取り可能記憶媒体。
  18. 前記命令は、実行されると、前記少なくとも1つのプロセッサを、前記機械学習モデルの第2の人工神経回路網に前記複数の候補領域を入力することに応答して、前記第2の人工神経回路網から、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を少なくとも受信することによって、テキストを含む前記複数の吹き出しを含む前記デジタルグラフィックノベルコンテンツの前記特徴を判定するように構成する、請求項17に記載のコンピュータ読み取り可能記憶媒体。
  19. 請求項1〜6のいずれかに記載の方法をコンピュータに実行させるためのプログラム。
JP2017556883A 2015-09-23 2016-08-09 デジタルグラフィックノベルの自動翻訳 Active JP6596511B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/863,394 2015-09-23
US14/863,394 US9881003B2 (en) 2015-09-23 2015-09-23 Automatic translation of digital graphic novels
PCT/US2016/046202 WO2017052820A1 (en) 2015-09-23 2016-08-09 Automatic translation of digital graphic novels

Publications (2)

Publication Number Publication Date
JP2018529133A JP2018529133A (ja) 2018-10-04
JP6596511B2 true JP6596511B2 (ja) 2019-10-23

Family

ID=56740503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017556883A Active JP6596511B2 (ja) 2015-09-23 2016-08-09 デジタルグラフィックノベルの自動翻訳

Country Status (5)

Country Link
US (2) US9881003B2 (ja)
EP (1) EP3353675A1 (ja)
JP (1) JP6596511B2 (ja)
CN (1) CN107615269A (ja)
WO (1) WO2017052820A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9588675B2 (en) 2013-03-15 2017-03-07 Google Inc. Document scale and position optimization
US10747419B2 (en) 2015-09-25 2020-08-18 CSOFT International Systems, methods, devices, and computer readable media for facilitating distributed processing of documents
US10579743B2 (en) * 2016-05-20 2020-03-03 International Business Machines Corporation Communication assistant to bridge incompatible audience
US20170365083A1 (en) * 2016-06-17 2017-12-21 Google Inc. Automatically identifying and displaying objects of interest in a graphic novel
KR102438132B1 (ko) * 2017-09-20 2022-08-31 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10599769B2 (en) 2018-05-01 2020-03-24 Capital One Services, Llc Text categorization using natural language processing
US10922833B2 (en) * 2018-05-15 2021-02-16 Apical Ltd. Image processing
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
US10678571B2 (en) * 2018-07-13 2020-06-09 Microsoft Technology Licensing, Llc Image-based skill triggering
CN110852084B (zh) * 2018-07-27 2021-04-02 杭州海康威视数字技术股份有限公司 文本生成方法、装置及设备
CN109410849B (zh) * 2018-12-21 2021-05-18 上海墨案智能科技有限公司 刷新控制方法、装置及存储介质
WO2021038708A1 (ja) * 2019-08-27 2021-03-04 遼太 日並 漫画の機械翻訳装置、漫画の対訳データベース生成装置、漫画の機械翻訳方法およびプログラム
CN111860122B (zh) * 2020-06-04 2023-10-13 上海翎腾智能科技有限公司 一种现实场景下的阅读综合行为的识别方法及***
CN112270168B (zh) * 2020-10-14 2023-11-24 北京百度网讯科技有限公司 对白情感风格预测方法、装置、电子设备及存储介质
EP4285271A2 (en) * 2021-01-29 2023-12-06 Elaboration, Inc. Automated classification of emotio-cogniton
US11886793B2 (en) * 2021-09-03 2024-01-30 Adobe Inc. Textual design agent
CN115525281B (zh) * 2022-10-12 2023-06-27 广州宏天软件股份有限公司 一种表单交互图形展示与选择方法

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US20010032218A1 (en) * 2000-01-31 2001-10-18 Huang Evan S. Method and apparatus for utilizing document type definition to generate structured documents
JP3522644B2 (ja) * 2000-04-28 2004-04-26 株式会社講談社 表示言語変換システム及び記憶媒体
JP2003022269A (ja) * 2001-07-09 2003-01-24 Kyodo Printing Co Ltd 漫画翻訳装置及びそのシステム並びに漫画翻訳方法
US8438004B2 (en) * 2001-10-03 2013-05-07 Hewlett-Packard Development Company L.P. System and methods for language translation printing
EP1695236A2 (en) * 2003-12-17 2006-08-30 Speechgear, Inc. Translation tool
JP4232679B2 (ja) * 2004-04-15 2009-03-04 富士ゼロックス株式会社 画像形成装置およびプログラム
CN1570922A (zh) * 2004-04-30 2005-01-26 王敖格 一种模式-参数语言翻译方法及其翻译***
US7865353B2 (en) * 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium
JP2006276915A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳処理方法、文書翻訳装置およびプログラム
US7392473B2 (en) * 2005-05-26 2008-06-24 Xerox Corporation Method and apparatus for determining logical document structure
US9087049B2 (en) * 2005-10-26 2015-07-21 Cortica, Ltd. System and method for context translation of natural language
JP5124469B2 (ja) * 2005-11-14 2013-01-23 ランゲージ ディスカバリー エルティーディー 多言語交流システム
JP2007164550A (ja) 2005-12-15 2007-06-28 Core Colors Inc コンテンツ表示方法
GB0602710D0 (en) 2006-02-10 2006-03-22 Picsel Res Ltd Processing Comic Art
US7711546B2 (en) * 2006-04-21 2010-05-04 Microsoft Corporation User interface for machine aided authoring and translation
US20070250528A1 (en) * 2006-04-21 2007-10-25 Microsoft Corporation Methods for processing formatted data
US7958444B2 (en) * 2006-06-15 2011-06-07 Xerox Corporation Visualizing document annotations in the context of the source document
AU2007276967B2 (en) * 2006-07-28 2012-05-17 Taylor Medical, Inc. Catheter components formed of a compound of polymer with particles or fibers
JP2007035056A (ja) * 2006-08-29 2007-02-08 Ebook Initiative Japan Co Ltd 翻訳情報生成装置、翻訳情報生成方法並びにコンピュータプログラム
JP2008084286A (ja) 2006-09-01 2008-04-10 Toshiba Corp 電子漫画配信サーバ、および翻訳電子漫画作成装置
US8301999B2 (en) 2006-09-25 2012-10-30 Disney Enterprises, Inc. Methods, systems, and computer program products for navigating content
US20080172637A1 (en) * 2007-01-15 2008-07-17 International Business Machines Corporation Method and system for using image globalization in dynamic text generation and manipulation
JP4796530B2 (ja) 2007-03-30 2011-10-19 株式会社セルシス マンガの表示方法およびマンガを表示する電子機器
US7912289B2 (en) * 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US8139872B2 (en) * 2008-06-27 2012-03-20 Microsoft Corporation Splitting file types within partitioned images
US20100118037A1 (en) * 2008-09-08 2010-05-13 Apple Inc. Object-aware transitions
US20100138775A1 (en) * 2008-11-28 2010-06-03 Sharon Kohen Method, device and system, for extracting dynamic content from a running computer application
US8352855B2 (en) * 2009-01-02 2013-01-08 Apple Inc. Selection of text in an unstructured document
US20110074831A1 (en) 2009-04-02 2011-03-31 Opsis Distribution, LLC System and method for display navigation
US8161384B2 (en) * 2009-04-23 2012-04-17 Hewlett-Packard Development Company, L.P. Arranging graphic objects on a page with text
US9886936B2 (en) 2009-05-14 2018-02-06 Amazon Technologies, Inc. Presenting panels and sub-panels of a document
US20100315315A1 (en) 2009-06-11 2010-12-16 John Osborne Optimal graphics panelization for mobile displays
US20110251837A1 (en) * 2010-04-07 2011-10-13 eBook Technologies, Inc. Electronic reference integration with an electronic reader
US20110261030A1 (en) 2010-04-26 2011-10-27 Bullock Roddy Mckee Enhanced Ebook and Enhanced Ebook Reader
US20120131487A1 (en) * 2010-11-19 2012-05-24 Kathleen Ann Leonard Analysis, visualization and display of curriculum vitae data
JP2012133659A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
JP5674450B2 (ja) * 2010-12-22 2015-02-25 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
US20120196260A1 (en) * 2011-02-01 2012-08-02 Kao Nhiayi Electronic Comic (E-Comic) Metadata Processing
US20140012205A1 (en) * 2011-03-23 2014-01-09 Sanofi-Aventis Deutschland Gmbh Drug Delivery Device with Pivoting Protective Cap
US8983825B2 (en) 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US20140074648A1 (en) 2012-09-11 2014-03-13 Google Inc. Portion recommendation for electronic books
KR20140037535A (ko) 2012-09-19 2014-03-27 삼성전자주식회사 사용자 효과를 포함하는 전자책 생성 방법 및 그 장치
JP2014089637A (ja) * 2012-10-31 2014-05-15 International Business Maschines Corporation 画像データ中の訳し分けされるべき単語又はフレーズに対応する訳語を決定する方法、並びにそのコンピュータ及びコンピュータ・プログラム
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9436357B2 (en) 2013-03-08 2016-09-06 Nook Digital, Llc System and method for creating and viewing comic book electronic publications
US9501471B2 (en) * 2013-06-04 2016-11-22 International Business Machines Corporation Generating a context for translating strings based on associated application source code and markup
US20150121202A1 (en) * 2013-10-25 2015-04-30 Palo Alto Research Center Incorporated System and method for transmitting mixed content type messages
US9239833B2 (en) 2013-11-08 2016-01-19 Google Inc. Presenting translations of text depicted in images
JP2017504876A (ja) * 2013-12-09 2017-02-09 グーグル インコーポレイテッド テキストのコンテキストベースの定義および翻訳を提供するためのシステムおよび方法
US20150227509A1 (en) * 2014-02-13 2015-08-13 Kobo Inc. Providing translation of a text item from a displayed portion of text content

Also Published As

Publication number Publication date
US9881003B2 (en) 2018-01-30
WO2017052820A1 (en) 2017-03-30
EP3353675A1 (en) 2018-08-01
CN107615269A (zh) 2018-01-19
US20170083511A1 (en) 2017-03-23
US20180107658A1 (en) 2018-04-19
JP2018529133A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
JP6596511B2 (ja) デジタルグラフィックノベルの自動翻訳
US10783409B2 (en) Font replacement based on visual similarity
JP6613317B2 (ja) デジタルグラフィックノベルのコンピュータ支援ナビゲーション
US10055391B2 (en) Method and apparatus for forming a structured document from unstructured information
CN108351871B (zh) 通用翻译
CN109815459A (zh) 生成被调整到目标受众词汇的文本内容的目标概要
CN109657204B (zh) 使用非对称度量学习的自动配对字体
US11604641B2 (en) Methods and systems for resolving user interface features, and related applications
CN109155076B (zh) 自动识别和显示图形小说中的感兴趣对象
US9202142B1 (en) Automatic assessment of books to determine suitability for audio book conversion
US20180060743A1 (en) Electronic Book Reader with Supplemental Marginal Display
JPWO2014147767A1 (ja) 文書処理装置、文書処理方法、プログラムおよび情報記憶媒体
US11681417B2 (en) Accessibility verification and correction for digital content
EP4336379A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
CN108229477B (zh) 针对图像的视觉关联性识别方法、装置、设备及存储介质
US20190318192A1 (en) Information processing apparatus, and non-transitory computer readable medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181016

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190930

R150 Certificate of patent or registration of utility model

Ref document number: 6596511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250