JP7277611B2 - テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング - Google Patents

テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング Download PDF

Info

Publication number
JP7277611B2
JP7277611B2 JP2021564438A JP2021564438A JP7277611B2 JP 7277611 B2 JP7277611 B2 JP 7277611B2 JP 2021564438 A JP2021564438 A JP 2021564438A JP 2021564438 A JP2021564438 A JP 2021564438A JP 7277611 B2 JP7277611 B2 JP 7277611B2
Authority
JP
Japan
Prior art keywords
sfx
visual
tags
tag
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021564438A
Other languages
English (en)
Other versions
JP2022531221A (ja
Inventor
クリシュナムルティ、スーダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2022531221A publication Critical patent/JP2022531221A/ja
Application granted granted Critical
Publication of JP7277611B2 publication Critical patent/JP7277611B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本出願は、概して、コンピュータ技術に必然的に根ざし、かつ具体的な技術的改善をもたらす、技術的に独創性のある非定型的解決策に関する。
深層学習と称されることもある機械学習は、データの理解、検出、及び/または分類に関連する様々な有用なアプリケーションに使用することができる。ゲーム業界などのコンピュータシミュレーション業界では、ビデオとオーディオは、2つの別個のプロセスである。最初に、オーディオなしでシミュレーションが設計及び制作され、次いで、オーディオグループがシミュレーションビデオを調査して、対応するサウンドエフェクト(SFX)をSFXデータベースから挿入するのだが、これには時間がかかる。
本明細書で理解されるように、機械学習を使用して、コンピュータシミュレーションシーンに関連するSFX推薦を提供することにより、上記の技術的問題が対処され得る。
従って、装置は、少なくとも1つのプロセッサと、一時的信号ではなく、かつ命令を含む少なくとも1つのコンピュータストレージと、を含み、命令は、プロセッサにより、サウンドエフェクト(SFX)を分類して、分類されたSFXをレンダリングすることを、実行可能である。命令はまた、分類済みのSFXのSFXラベルを、少なくとも第1のビデオにおける属性のビデオ認識から導出された視覚的ラベルと、意味的にマッチングさせて、SFXラベルに対応付けられた分類済みのSFXを、第1のビデオに組み込むことを、実行可能である。
いくつかの実施形態では、命令は、第1のビデオにおける少なくとも1つのオブジェクトの認識に基づいて、及び/または第1のビデオにおける少なくとも1つのアクションの認識に基づいて、及び/または第1のビデオにおける少なくとも1つのキャプションの認識に基づいて、視覚的ラベルを生成することを、実行可能であり得る。
例示的な実施態様では、命令は、SFXラベルと視覚的ラベルとのテキスト類似性を使用して、SFXラベルを視覚的ラベルと意味的にマッチングさせることを、実行可能であり得る。
いくつかの実施形態では、命令は、視覚的ラベルに対応する第1の数値ベクトルを導出することと、SFXラベルに対応する第2の数値ベクトルを導出することと、第1のベクトルと第2のベクトルとの距離を少なくとも部分的に計算することにより、視覚的ラベルに対するSFXラベルの類似性を特定することを、実行可能である。このような実施形態では、命令は、第1のベクトルと、第1のSFXラベルに対応付けられた第2のベクトルとの距離が、第1のベクトルと、第2のSFXラベルに対応付けられた第2のベクトルとの距離よりも小さいという判定に応じて、第1のSFXラベルは第2のSFXラベルよりも、視覚的ラベルに類似していると判定することを、実行可能であり得る。
必要に応じて、命令は、1つの視覚的ラベルを複数のSFXラベルにマッピングすることを、実行可能であり得る。
別の態様では、方法は、少なくとも第1のビデオの少なくとも1つの属性を記述する少なくとも1つの視覚的タグを生成することと、視覚的タグとサウンドエフェクト(SFX)タグとの意味的類似性に少なくとも部分的に基づいて、少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、第1のビデオに対応付けることと、を含む。
別の態様では、アセンブリは、一時的信号ではない一方、命令を含む少なくとも1つのコンピュータストレージを含み、命令は、少なくとも1つのプロセッサにより、少なくとも第1のビデオを記述する少なくとも1つの視覚的タグを識別することを、実行可能である。命令はまた、視覚的タグとサウンドエフェクト(SFX)タグとの類似性に少なくとも部分的に基づいて、少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、第1のビデオに対応付けることを、実行可能である。
本出願の構造及び動作の両方についての詳細は、添付図面を参照することで最もよく理解でき、図面では、同様の参照番号は、同様の部分を指す。
本発明の原理と一致する、例示的なシステムのブロック図である。 本発明の原理と一致する、ビデオまたはコンピュータシミュレーションに対するサウンドエフェクト(SFX)を推薦するための例示的な全体ロジックのフローチャートである。 図2のロジックを例示するブロック図である。 ビデオからSFXタグへの直接マッピングを伴うSFXタグ付けの第1の手法のブロック図である。 図4の第1の手法と一致する、追加特徴のブロック図である。 図4の第1の手法と一致する、「混音」粗粒度(図示される例では32カテゴリ)SFX分類に関連する機械学習アーキテクチャのブロック図である。 図4の第1の手法と一致する、「混音」粗粒度(図示される例では32カテゴリ)SFX分類に関連する機械学習アーキテクチャのブロック図である。 図4の第1の手法と一致する、「混音」細粒度SFX分類に関連する半教師あり機械学習アーキテクチャのブロック図である。 図4の第1の手法と一致する、トレーニングフェーズ及びテストフェーズに関連する機械学習アーキテクチャのブロック図である。 視覚的把握による間接的なタグ付けを伴うビデオタグ付けの第2の手法の特徴のブロック図である。 スクリーンショット、及び視覚的タグとマッチングするSFXオーディオタグとの相関を示す関連テーブルである。 スクリーンショット、及び視覚的タグとマッチングするSFXオーディオタグとの相関を示す関連テーブルである。
本発明の原理に従って、深層学習ベースのドメイン適応方法を使用して、ビデオ、及びビデオゲームなどのコンピュータシミュレーションに対し、SFXが推薦され得る。
本明細書で説明される方法は、複数のオブジェクト、及び複数のオブジェクトに対応付けられた複数のアクションに関係し得る。例えば、多くのテキストの画像テキストブロックが「オブジェクト」であり得、画像ブロックのタイプが「アクション」であり得る。
本開示はまた、概して、分散コンピュータゲームネットワーク、拡張現実(AR)ネットワーク、仮想現実(VR)ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、並びに人工ニューラルネットワーク及び機械学習アプリケーションなど、これらに限定されない一般消費者向け電子製品(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。
本明細書のシステムは、サーバコンポーネントとクライアントコンポーネントとを含み得、これらは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを介して接続される。クライアントコンポーネントには、ARヘッドセット、VRヘッドセット、Sony PlayStation(登録商標)などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ(例えばスマートTV、インターネット対応TV)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、並びにスマートホン及び下記で論じられる追加例を含む他のモバイルデバイスを含む1つ以上のコンピューティングデバイスが含まれ得る。これらのクライアントデバイスは、様々な動作環境で作動し得る。例えば、クライアントコンピュータのうちのいくつかは、例を挙げると、Orbis(登録商標)もしくはLinux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、またはUnix(登録商標)オペレーティングシステム、またはApple, Inc.(登録商標)製もしくはGoogle(登録商標)製のオペレーティングシステムを採用し得る。これらの動作環境を使用して、Microsoft(登録商標)製もしくはGoogle(登録商標)製のブラウザ、または下記に論じられるインターネットサーバによりホストされるウェブサイトにアクセスできるMozillaもしくは他のブラウザプログラムなど、1つ以上のプログラム/アプリケーションが実行され得る。また、本発明の原理による動作環境を使用して、本発明の原理を実施する1つ以上のコンピュータゲームプログラム/アプリケーション及び他のプログラム/アプリケーションが実行され得る。
サーバ及び/またはゲートウェイは、1つ以上のプロセッサを含み得、1つ以上のプロセッサは、インターネットなどのネットワークを介してデータを送受信するようにサーバを構成する命令を実行する。付加的または代替的に、クライアントとサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続され得る。サーバまたはコントローラは、Sony PlayStation(登録商標)といったゲームコンソール及び/またはその1つ以上のマザーボード、パーソナルコンピュータなどにより、インスタンス化され得る。
クライアントとサーバとの間でネットワークを介して情報が交換され得る。そのために、及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、並びに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。1つ以上のサーバは、本発明の原理に従って、ネットワークユーザがクラウドソーシングによる通信を行うように、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどの安全なコミュニティをネットワークユーザに提供する方法を実施する装置を形成し得る。
本明細書で使用される命令は、システムで情報を処理するためのコンピュータ実施ステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。
プロセッサは、アドレスライン、データライン、及び制御ラインなどの様々なライン、並びにレジスタ及びシフトレジスタにより、ロジックを実行することができる任意の従来の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。
本明細書において、フローチャートを介して説明されるソフトウェアモジュール、及びユーザインターフェースは、様々なサブルーチン、プロシージャなどを含み得る。
本開示を限定することなく、特定のモジュールにより実行されると述べられるロジックは、他のソフトウェアモジュールに再配分されてもよく、及び/または単一モジュール内に一緒に組み合わされてもよく、及び/または共有可能なライブラリで利用可能な状態にされてもよい。
上記のように、本明細書で記述される本発明の原理は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせで実施され得、ゆえに、例示的なコンポーネント、ブロック、モジュール、回路、及びステップは、これらの機能の観点から説明される。
上記で示唆されたことに加えて、後述されるロジックブロック、モジュール、及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、または例えば特定用途向け集積回路(ASIC)、個別ゲート、もしくはトランジスタロジックなどの他のプログラムマブルロジックデバイス、個別ハードウェアコンポーネント、あるいはこれらの任意の組み合わせにより、実装または実行され得る。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせにより、実施され得る。
後述される機能及び方法は、ハードウェア回路またはソフトウェア回路で実施され得る。ソフトウェアで実施される場合、機能及び方法は、Java(登録商標)、C#、またはC++などのこれに限定されない好適な言語で記述され得、コンピュータ可読記憶媒体により格納または送信され得、コンピュータ可読記憶媒体の例には、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)、またはデジタル多用途ディスク(DVD)などの他の光学ディスクストレージ、磁気ディスクストレージ、またはリムーバブルサムドライブを含む他の磁気ストレージデバイスなどが挙げられる。接続により、コンピュータ可読媒体が確立され得る。このような接続には、例として、光ファイバ及び同軸ワイヤを含むハードワイヤケーブル、並びにデジタル加入者線(DSL)及びツイストペア線が含まれ得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。
一実施形態に含まれるコンポーネントは、他の実施形態において、任意の好適な組み合わせで使用することができる。例えば、本明細書で説明され及び/または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。
「A、B、及びCのうちの少なくとも1つを有するシステム」(同様に「A、B、またはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)には、Aのみ、Bのみ、Cのみ、AとB共に、AとC共に、BとC共に、及び/またはAとBとC共に、などを有するシステムが含まれる。
ここで具体的に図1を参照すると、本発明の原理による、上記で言及され下記でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示される。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、TVチューナー(同等にTVを制御するセットトップボックス)を備えたインターネット対応TVなどのこれに限定されないオーディオビデオデバイス(AVD)12といった一般消費者向け電子製品(CE)デバイスである。しかし、AVD12は、代替的に、例えばインターネット対応コンピュータ化冷蔵庫、洗濯機、または乾燥機などの電化製品または家庭用品であってもよい。また、AVD12は、代替的に、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、インターネット対応すなわち「スマート」グラス、別の種類のウェアラブルコンピュータ制御型デバイス、例えばコンピュータ制御型インターネット対応腕時計、コンピュータ制御型インターネット対応ブレスレット、コンピュータ制御型インターネット対応ミュージックプレーヤ、コンピュータ制御型インターネット対応ヘッドホン、インプラント可能皮膚用デバイスなどのコンピュータ制御型インターネット対応インプラント可能デバイス、他のコンピュータ制御型インターネット対応デバイスなどであってもよい。いずれにせよ、AVD12は、本発明の原理を実施する(例えば本発明の原理を実施するために他の一般消費者向け電子製品(CE)デバイスと通信し、本明細書で説明されるロジックを実行し、本明細書で説明されるいずれかの他の機能及び/または動作を実行する)ように構成されることを理解されたい。
従って、このような原理を実施するために、図1に示されるコンポーネントのうちのいくつかまたは全てにより、AVD12は確立され得る。例えば、AVD12は、1つ以上のディスプレイ14を含み得、これは、高解像度または超高解像度「4K」以上のフラットスクリーンが実装され得、ディスプレイ上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。AVD12は、本発明の原理に従ってオーディオを出力するための1つ以上のスピーカ16と、AVD12を制御するようにAVD12に可聴コマンドを入力するための、オーディオ受信器/マイクロホンなどの少なくとも1つの追加入力デバイス18と、を含み得る。例示的なAVD12はまた、1つ以上のプロセッサの制御下でインターネット、WAN、LANなどの少なくとも1つのネットワーク22を介して通信するための1つ以上のネットワークインターフェース20を含み得る。従って、インターフェース20は、Wi-Fi(登録商標)送受信器であり得るが、これに限定されず、Wi-Fi(登録商標)送受信器は、非限定的にメッシュネットワーク送受信器などの無線コンピュータネットワークインターフェースの例である。さらに、ネットワークインターフェース20は、例えば有線もしくは無線のモデムもしくはルータであり得る、または、例えば無線電話送受信器、もしくは上記のWi-Fi(登録商標)送受信器などの他の好適なインターフェースであり得ることに、留意されたい。
1つ以上のプロセッサは、本発明の原理を実施するためにAVD12を制御するが、これには、例えばディスプレイ14を制御してディスプレイ14上に画像を提示し、ディスプレイ14から入力を受信するなど、本明細書に説明されるAVD12の他の素子が含まれることを理解されたい。1つ以上のプロセッサは、中央処理装置(CPU)24、並びにグラフィックスカード25A上のグラフィックス処理装置(GPU)25を含み得る。
上記に加えて、AVD12はまた、別の一般消費者向け電子製品(CE)デバイスに(例えば有線接続を用いて)物理的に接続するための、例えば高解像度マルチメディアインターフェース(HDMI(登録商標))ポートまたはUSBポートなどの1つ以上の入力ポート26、及び/または、AVD12からのオーディオをヘッドホンを介してユーザに提供するように、ヘッドホンをAVD12に接続するためのヘッドホンポートを含み得る。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルソースまたは衛星ソース26aに、有線または無線を介して接続され得る。従って、ソース26aは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信器であり得る。あるいは、ソース26aは、チャネル割り当て目的でユーザがお気に入りとみなし得るコンテンツを含むゲームコンソールまたはディスクプレーヤであってもよい。ソース26aは、ゲームコンソールとして実装される場合、CEデバイス44に関連して後述されるコンポーネントのうちのいくつかまたは全てを含み得、本明細書で説明されるロジックのうちのいくつかまたは全てを実施し得る。
AVD12はさらに、一時的信号ではないディスクベースストレージまたはソリッドステートストレージなどの1つ以上のコンピュータメモリ28を含み得、これらは、いくつかの事例では、AVDのシャシー内にスタンドアロンデバイスとして、またはAVプログラムを再生するためにAVDのシャシーの内部もしくは外部のパーソナルビデオレコーディングデバイス(PVR)もしくはビデオディスクプレーヤとして、またはリムーバブルメモリ媒体として、具現化される。また、いくつかの実施形態では、AVD12は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話受信器、GPS受信器、及び/または高度計30などであるがこれらに限定されず、例えば少なくとも1つの衛星または携帯電話中継塔から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはプロセッサ24と連動して、AVD12が配置されている高度を特定するように構成される。しかし、例えばAVD12の所在地を全3次元で特定するために、本発明の原理による、携帯電話受信器、GPS受信器、及び/または高度計以外の別の好適な位置受信器が使用されてもよいことを、理解されたい。
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含み得、これは、例えば熱画像カメラ、ウェブカメラなどのデジタルカメラ、赤外線(IR)カメラ、及び/またはAVD12に統合されたカメラであり得、本発明の原理に従って写真/画像及び/またはビデオを生成するようにプロセッサ24により制御可能であり得る。また、AVD12は、ブルートゥース(登録商標)送受信器34と他の近距離無線通信(NFC)素子36とを含み得、これらは、ブルートゥース(登録商標)及び/またはNFC技術をそれぞれ使用して、他のデバイスと通信する。例示的なNFC素子は、無線周波数識別(RFID)素子であり得る。
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ37を含み得る(例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、あるいは磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、ジェスチャセンサ(例えばジェスチャコマンドを感知する)など)。AVD12は、地上波(OTA)TV放送を受信し、プロセッサ24に入力を提供するOTA TV放送ポート38を含み得る。前述に加えて、AVD12はまた、赤外線データ協会(IRDA)デバイスなどの赤外線(IR)送信器及び/またはIR受信器及び/またはIR送受信器42を含み得ることに留意されたい。AVD12に電力供給を行うために、バッテリ(図示せず)が設けられ得る。
さらに図1を参照すると、AVD12に加えて、システム10は、1つ以上の他の一般消費者向け電子製品(CE)デバイス類を含み得る。一例では、AVD12に直接及び/または後述のサーバを通して送信されるコマンドを介して、AVD12にコンピュータゲームのオーディオ及びビデオを送信するために、第1のCEデバイス44が使用され得るが、第2のCEデバイス46も、第1のCEデバイス44と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス46は、図示されるようにユーザ47が装着するARまたはVRヘッドセットとして構成され得る。示される例では、2つのCEデバイス44、46のみが図示されるが、より少ないまたはより多いデバイスも本発明の原理に従って使用されてもよいことが理解されよう。
示される例では、3つのデバイス12、44、46は全て、例えば自宅内の安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくはWi-Fi(登録商標)などのネットワークのメンバーである、または少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いと及びサーバと通信可能であると想定される。しかし、本発明の原理は、明確に別段の主張がない限り、特定の場所またはネットワークに限定されない。
非限定的な例示の第1のCEデバイス44は、上記のデバイスのうちのいずれか1つ、例えば、スマートホン、デジタルアシスタント、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータ、またはゲームコントローラ(「コンソール」とも称される)により確立され得、従って、後述されるコンポーネントのうちの1つ以上を有し得る。第2のCEデバイス46は、ARヘッドセット、VRヘッドセット、「スマート」インターネット対応グラス、またはさらにはブルーレイプレーヤといったビデオディスクプレーヤ、及びゲームコンソールなどにより、確立され得るが、これらに限定されない。またさらに、いくつかの実施形態では、第1のCEデバイス44は、例えばAV再生及び一時停止コマンドをAVD12に発令するためのリモートコントロール(RC)であり得る、または第1のCEデバイス44は、タブレットコンピュータ、図1に示されるデバイスのうちの別のデバイスにより実施されるゲームコンソールと有線または無線リンクを介して通信し、AVD12上のビデオゲームの提示を制御するゲームコントローラ、パーソナルコンピュータ、無線電話などのより洗練されたデバイスであり得る。
従って、第1のCEデバイス44は、1つ以上のディスプレイ50を含み得、これは、ディスプレイ50上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。付加的または代替的に、ディスプレイ(複数可)50は、ARヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、並びにVRヘッドセットディスプレイ、あるいはAR及び/またはVR画像を提示するように構成された他のディスプレイなど、少なくとも部分的に透明なディスプレイであり得る。
第1のCEデバイス44はまた、本発明の原理に従ってオーディオを出力するための1つ以上のスピーカ52と、例えば第1のCEデバイス44を制御するように第1のCEデバイス44に可聴コマンドを入力するための、例えばオーディオ受信器/マイクロホンなどの少なくとも1つの追加入力デバイス54と、を含み得る。例示的な第1のCEデバイス44はさらに、1つ以上のCEデバイスプロセッサ58の制御下で、ネットワーク22を介して通信するための1つ以上のネットワークインターフェース56を含み得る。従って、インターフェース56は、Wi-Fi(登録商標)送受信器であり得るが、これに限定されず、Wi-Fi(登録商標)送受信器は、メッシュネットワークインターフェースを含む無線コンピュータネットワークインターフェースの例である。プロセッサ58は、本発明の原理を実施するために第1のCEデバイス44を制御するが、これには、例えばディスプレイ50を制御してディスプレイ50上に画像を提示し、ディスプレイ50から入力を受信するなど、本明細書に説明される第1のCEデバイス44の他の素子が含まれることを理解されたい。さらに、ネットワークインターフェース56は、例えば有線もしくは無線のモデムもしくはルータであり得る、または、無線電話送受信器、もしくは上記のWi-Fi(登録商標)送受信器などの他の好適なインターフェースであり得ることに、留意されたい。
またさらに、プロセッサ(複数可)58に加えて、第1のCEデバイス44はまた、グラフィックスカード55A上にグラフィックス処理ユニット(GPU)55を含み得ることに留意されたい。グラフィックス処理ユニット55は、とりわけ、ディスプレイ50上にAR及び/またはVR画像を提示するように構成され得る。
上記に加えて、第1のCEデバイス44はまた、別のCEデバイスに(例えば有線接続を用いて)物理的に接続するための、例えばHDMI(登録商標)ポートまたはUSBポートなどの1つ以上の入力ポート60、及び/または、ヘッドホンを第1のCEデバイス44に接続して、第1のCEデバイス44からのオーディオをヘッドホンを介してユーザに提供するためのヘッドホンポートを含み得る。第1のCEデバイス44はさらに、ディスクベースストレージまたはソリッドステートストレージなどの1つ以上の有形コンピュータ可読記憶媒体62を含み得る。また、いくつかの実施形態では、第1のCEデバイス44は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話及び/またはGPS受信器及び/または高度計64などであるがこれらに限定されず、例えば、三角測量を使用して、少なくとも1つの衛星及び/または携帯電話中継塔から地理的位置情報を受信し、情報をCEデバイスプロセッサ58に提供し、及び/またはCEデバイスプロセッサ58と連動して、第1のCEデバイス44が配置されている高度を特定するように構成される。しかし、例えば、第1のCEデバイス44の所在地を全3次元で特定するために、携帯電話及び/またはGPS受信器及び/または高度計以外の別の好適な位置受信器が、本発明の原理に従って使用されてもよいことを、理解されたい。
第1のCEデバイス44の説明を続けると、いくつかの実施形態では、第1のCEデバイス44は、1つ以上のカメラ66を含み得、これは、例えば熱画像カメラ、IRカメラ、ウェブカメラなどのデジタルカメラ、及び/または第1のCEデバイス44に統合された別の種類のカメラであり得、本発明の原理に従って写真/画像及び/またはビデオを生成するようにCEデバイスプロセッサ58により制御可能であり得る。また、第1のCEデバイス44は、ブルートゥース(登録商標)送受信器68と他の近距離無線通信(NFC)素子70とを含み得、これらは、ブルートゥース(登録商標)(登録商標)及び/またはNFC技術をそれぞれ使用して、他のデバイスと通信する。例示的なNFC素子は、無線周波数識別(RFID)素子であり得る。
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つ以上の補助センサ72を含み得る(例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、あるいは磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、ジェスチャセンサ(例えばジェスチャコマンドを感知する)など)。第1のCEデバイス44は、例えば1つ以上の気候センサ74(例えば気圧計、湿度センサ、風センサ、光センサ、温度センサなど)及び/または1つ以上の生体センサ76などのさらに他のセンサを含み得、これらは、CEデバイスプロセッサ58に入力を提供する。前述に加えて、いくつかの実施形態では、第1のCEデバイス44はまた、赤外線データ協会(IRDA)デバイスなどの赤外線(IR)送信器及び/またはIR受信器及び/またはIR送受信器78を含み得ることに留意されたい。第1のCEデバイス44に給電するために、バッテリ(図示せず)が設けられ得る。CEデバイス44は、前述の通信モード及び関連コンポーネントのうちのいずれかを介して、AVD12と通信し得る。
第2のCEデバイス46は、CEデバイス44に関して示されるコンポーネントのうちのいくつかまたは全てを含み得る。一方または両方のCEデバイスは、1つ以上のバッテリにより電力供給され得る。
ここで、上記の少なくとも1つのサーバ80を参照すると、これは、少なくとも1つのサーバプロセッサ82と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも1つの有形コンピュータ可読記憶媒体84とを含む。実施態様では、媒体84は、1つ以上のソリッドステートストレージドライブ(SSD)を含む。サーバはまた、少なくとも1つのネットワークインターフェース86を含み、これにより、ネットワーク22を介して図1の他のデバイスとの通信が可能となり、実際に、本発明の原理に従ってサーバとクライアントデバイスとの間の通信が促進され得る。ネットワークインターフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi(登録商標)送受信器、または無線電話送受信器などの他の好適なインターフェースであり得ることに、留意されたい。ネットワークインターフェース86は、サーバプロセッサ82を通ることなく、いわゆる「ファブリック」などのネットワークに媒体84を直接接続するリモートダイレクトメモリアクセス(RDMA)インターフェースであり得る。ネットワークは、イーサネット(登録商標)ネットワーク及び/またはファイバチャネルネットワーク及び/またはインフィニバンドネットワークを含み得る。通常、サーバ80は、物理サーバ「スタック」に配置され得る「ブレード」と称される複数のコンピュータに、複数のプロセッサを含む。
従って、いくつかの実施形態では、サーバ80は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含んで実行し得、これにより、例えば本明細書で開示されるドメイン適応などの例示的な実施形態では、システム10のデバイスがサーバ80を介して「クラウド」環境にアクセスし得る。付加的または代替的に、サーバ80は、図1に示される他のデバイスと同じ部屋または近くに存在する1つ以上のゲームコンソールまたは他のコンピュータにより、実施され得る。
図2及び図3は、全体的な原理を示す。図2のブロック200から始まり、サウンドエフェクト(SFX)が分類される。一例では、この分類は、入力デジタル化サウンドエフェクト信号300に対して実行され、本明細書の他の箇所で説明されるように、分類されるサウンドエフェクトを単語で説明するタグ302(図3に図示される)がレンダリングされ得る。
図2のブロック202へ移動して、さらに図3を相互参照すると、タグ302はデータベース304に登録される。次に、図2のブロック204に進むと、登録されたタグがサウンドのないビデオ306と組み合わされて、ビデオにサウンドエフェクトサウンド308がレンダリングされ得る。「サウンドエフェクト」とは、例えば、銃声音、火の燃える音、人が走る音、人が叫び声を上げる音、水の音などをコンピュータゲームが模倣するコンピュータシミュレーションの一環である非言語オーディオを指すことに留意されたい。さらに後述されるように、ビデオゲームなどのコンピュータシミュレーションのサウンドコンテンツ作成を支援するために、本明細書では、深層学習/AI技術が提供される。
本明細書で使用される「クリーンSFXタグ付け」とは、ゲームサウンドデザイナが使用するクリーンオーディオサンプル(単一の音源によるサウンドエフェクト)を、彼らのカテゴリ及びサブカテゴリに基づいて分類またはタグ付けすることで、クリーンオーディオサンプルがデータベースに自動的に登録され得ることを指す。これは、サウンドミキシング中の検索及び取得をより効率的にすることで、ゲームデザイナを支援する。「ビデオタグ付け」とは、ゲームシーンに関連するサウンドエフェクトを自動的に推薦することを指す。これは、サウンドデザインプロセスをより効率的にすることで、ゲームデザイナを支援するために行われる。本発明の原理は、ビデオのタグ付けを実現する技法に焦点を当てる。
本開示は、ビデオのタグ付けの2つの技法を明らかにする。図4~図9は、ゲームビデオの視覚的特徴と対応するSFX(オーディオ)タグ302との間の相関関係を学習するように深層学習エンジンがトレーニングされる直接マッピング手法を説明する。図10~図12は、視覚的把握手法を、2つのステップで、すなわち、ゲームシーンの視覚的コンテンツを把握して、オブジェクトタグ、アクションタグ、及びキャプションを含む視覚的タグを生成するニューラルネットワーク(NN)を提供することと、続いて、セマンティックテキストの類似性を使用して視覚的タグをオーディオタグにマッピングすることと、の2つのステップで説明する。辞書ベースのマッピングも、他の知識ベースに基づいて使用され得る。
従って、ここで図4を参照すると、トレーニングフェーズ400では、SFXサウンド付きのコンピュータシミュレーション402などのビデオを使用して、NNシステムが、様々なSFXソースのタグ404を生成して、SFXタグ406をレンダリングするように、トレーニングされる。NNシステムは、一旦トレーニングされると、テストフェーズ408にて、SFXサウンドのないコンピュータシミュレーションなどのビデオ410を、下記でさらに説明されるトレーニング済みモデル412への入力として受信し、ビデオ410と組み合わせるSFXタグ414を出力し、SFXサウンドが組み込まれたビデオ416をレンダリングするように、使用され得る。
ここで図5を参照すると、図4のトレーニングフェーズのより詳細な説明が示され得る。コンピュータゲームビデオ500などのサイレントビデオは、トレーニング済みNN502に入力される。ビデオの視覚的特徴と対応するサウンドエフェクトとの間の直接マッピングを学習するために、教師あり学習手法がNN502により使用される。この教師ありモデルをトレーニングするには、ゲームオーディオのサウンドアノテーションが必要である。本明細書で理解されるように、ゲームオーディオは通常、サウンドの混合(混音SFXとも称される)を含むという事実により、サウンドカテゴリの数が多い場合は特に、人間アノテーション504を取得することが困難になるため、プロセスは複雑である。ゆえに、深層学習モデル506は、サウンドの混合(混音SFXモデル)に自動的にタグ付けして、構成サウンドのカテゴリを識別するようにトレーニングされる。
ここで図6及び図7を参照すると、最初の実施形態では、混音SFXモデルは、人間アノテーションを使用した少数のカテゴリ(32クラス)のタグ付けを行うようにトレーニングされる。スペクトログラム600により表されるオーディオクリップは、一連の畳み込みNN(CNN)604を含むセグメンテーションマッピングモジュール602に入力される。セグメンテーションマスク606は、マッピングモジュール602により出力され、分類マッピング608が対応する確率を有するタグの予測610を生成するのに使用される。関連して、図7は、ゲート付き畳み込みリカレントNN(CRNN)700を示し、これは、SFXクリップ702を入力として受信し、時間ステップごとにスペクトルパターンを抽出し、双方向長短期記憶(LSTM)などの双方向RNN704に出力を提供する。図7は、ネットワーク700で使用されるCNNの種類を示す。Bi-RNN704は、複数のフィードフォワードNN(FNN)を含むアテンションベースのローカリゼーションモジュール706に接続され、複数のFNNは、シグモイドFNN及びソフトマックスFNNとして作動し、加重平均で予測タグ708を生成することが示される。
本発明の原理で重要なことは、図8が示す混音SFXタグ付けの高度な技法である。混音サンプル内の様々なサウンドエフェクトをより適切に区別するために、より細粒度のSFXタグ(例えば182クラスもしくは5000クラスのラベル、またはさらにより細かいラベル)を生成するために、コンピュータシミュレーションからの実際のSFXデータ800と、ゲート付きCNNモジュール804をトレーニングすることのみを目的として全てのシミュレーションとは別に生成された合成混音SFXデータ802とを使用して、教師ありモデルがトレーニングされる。言い換えると、図8に反映される本発明の原理では、教師ありモデルをトレーニングするには、より細粒度(例えば182クラスまたは5000クラス)のグラウンドトゥルースタグを有するトレーニングデータが必要であるが、より粗粒度(32クラス)の人間アノテーション付きSFXラベルのみがゲームオーディオ用に現在利用可能であることが、認識される。ゆえに、図8以降の図は、追加の人間アノテーションなしで、粗粒度オーディオタグから細粒度オーディオタグを生成する半教師あり手法を示す。粗粒度タグと細粒度タグの例として、32クラスと182クラスが使用されていることに留意されたい。
802で表されるサウンドサンプルの合成混合物が作成され、それらのカテゴリがミキシング中に記録される。この合成混合物では、細粒度SFXラベル(本明細書の他の箇所ではデータセット1と称される)が確立される。一方、ブロック800は、データセット2と称される粗粒度ラベル(人間により生成)を有する実際の利用可能なゲームオーディオを表す。図8に示されるように、実際のシミュレーションまたはゲームデータのデータセット1と、シミュレーションまたはゲームからではなく、ゲームデータを補足する目的で作成された合成データのデータセット2とを組み合わせて、エンドツーエンドの半教師ありモデル804がトレーニングされ、半教師ありモデル804は、混音ゲームオーディオの成分を識別する細粒度タグ810を生成するために、粗粒度分類器806と、細粒度分類器808とを含む。前に説明されたように、本物の細粒度ゲームオーディオラベルがトレーニング用に存在しないため、これは半教師ありで行われる。これは、粗粒度オーディオタグ812及び細粒度オーディオタグ810の両方を生成することができるので、マルチタスクモデルである。言い換えると、細粒度分析は、粗粒度分析よりも多くのカテゴリを使用する。
このモデルのトレーニング損失関数は、細粒度タグ付け及び粗粒度タグ付けの損失の合計である。トレーニングの目標は、トレーニングの損失を最小化することである。モデルが収束すると、トレーニングは終了する。この時点で、混音オーディオ混合を成分タグに分解することができるモデルが実現する。
従って、上記の説明は、ゲームオーディオの成分サウンドエフェクトカテゴリを識別する技法を明らかにし、一方、図9は、これらのタグ(人間または図8のモデルによる生成)を使用して教師ありビデオタグ付けモデルをトレーニングする方法を示す。示されるように、トレーニング中、サウンドが抽出されたビデオ900は、前述のように生成された、及び/または人間アノテーションが付けられた混音SFXタグ902と共に、トレーニングフェーズモジュール904に入力される。より具体的には、ビデオから抽出された対応するオーディオは、上記の図8で説明された混音SFXモデルに通され、SFXタグまたはラベル902が生成され、これらは、対応するビデオセグメント900と共に、教師ありトレーニングフェーズモデル904に入力される。このようにして、トレーニングの前に、ビデオはオーディオタグと同期化される。非限定的な例示的実施態様では、使用されるフレームレートは、毎秒30フレーム(30fps)であり得、ビデオ持続時間は1秒であり得る。
トレーニングフェーズモジュール904は、サイレントビデオフレームを深層CNN906(例えばResnetまたは同様のネットワーク)に通すことにより、ビデオ埋め込み(数値ベクトル)を生成する。フレームごとに、1つの埋め込み(ベクトル)が生成され、ビデオフレームの視覚的特徴として機能する。他の視覚的特徴も使用され得る。ビデオは一連のフレームであるため、一連のビデオ埋め込みが生成され、これは次に、リカレントニューラルネットワーク908に、示される例ではタグ予測910を生成する双方向ゲート付きリカレントユニット(GRU)またはゲート付きリカレントネットワークに、入力される。
トレーニングの出力は、ニューラルモデル912であり、これは、テストフェーズでサウンドのない新たなシミュレーションビデオ914を受信し、サイレントビデオ914に対応するサウンドタグ916を生成することができる。これらのタグを使用して、対応するサウンドエフェクト918が取得され、920に示されるビデオと組み合わされ得る。
図10~図12は、上記で示唆された視覚的把握手法を示す。第1のステップでは、サウンド(オーディオ)のないコンピュータシミュレーションなどのビデオ1000を使用して、例えば、ビデオ内の識別されたオブジェクト1004、ビデオ内の識別されたアクション1006、及びビデオ内の識別されたシーン説明1008の視覚的把握に基づいて、視覚的タグ1002が生成される。次に、セマンティックテキスト類似性モジュール1010は、視覚的タグ1002を、前述のデータベースからのSFXタグ1012と共に受信して、視覚的タグをサウンドデータベース内の特定のオーディオカテゴリに自動的にマッピングして、サウンド付きのビデオ1014を生成する。
図11にて、さらなる例示が行われる。オブジェクト1102を含むビデオを提示するディスプレイ1100が示され、オブジェクトは、画像認識技術を使用して認識され、対応する視覚的タグ1104が生成される。視覚的タグ1104は、単語埋め込みまたは文埋め込みを使用して埋め込まれ得、これは、数値ベクトルを生じる。ビデオタグ1104は、対応するオーディオタグ1106とマッチングされる。オーディオサンプルを識別する各オーディオカテゴリまたはオーディオファイル名は、単語埋め込みまたは文埋め込みを使用して埋め込まれ、これも数値ベクトルを生じる。図12は、同様に、ディスプレイ1200上のビデオを、キャプション1202と共に示し、キャプション1202は、教師なしセマンティックテキスト類似性モデル1203を使用して、オーディオタグ1204にマッチングされ得る。
いずれの事例も、オーディオタグを、オブジェクトタグに、キャプションタグに、またはアクションタグにマッチングさせるかに関係なく、2つの数値ベクトルが、1つはオーディオタグのために、もう1つはビデオから導出されるタグのために、生成される。タグの類似性は、2つのベクトル間の距離を計算することにより決定される。コサイン類似度またはユークリッド距離など、任意の距離測定が使用され得る。距離が小さいほど、タグの類似度は高くなる。この手法を使用して、各視覚的タグは、上位k個の最も類似するオーディオタグにマッピングされる。
このテキスト類似性手法を使用することで、各視覚的タグは、オーディオサンプルのグループを識別する粗粒度(例えば32クラス)タグから、個々のサウンドサンプルを識別する高細粒度タグまでに至る、様々な粒度のオーディオタグにマッピングされ得る。
ゲームシーンの視覚的把握から自動的に生成されるオーディオタグは、2つの目的を果たし得る。1つ目に、オーディオタグを使用して、ゲームシーンに対するサウンドエフェクトを、ゲームデザイナに推薦することができる。2つ目に、オーディオタグは、オーディオから導出される混音SFXラベルの代わりに、図4~図9で明らかにされた直接マッピングビデオタグ付けモデルをトレーニングするためのSFXラベルとしても使用することができる。
図4~図9の直接マッピングは、図10~図12に示される視覚的把握技法よりも、タグ付け精度を高め得るが、視覚的把握は、教師なしテキスト類似性を使用してより細粒度のタグ付けを行い、オブジェクト及びキャプションに比較的簡単にアノテーション付けを行う。直接マッピングは、正確なグラウンドトゥルースSFXタグがタグ付けに使用できる場合、または音源分離が実行可能な場合に、特に有利である。あるいは細粒度SFXアノテーションを取得することが困難な場合、視覚的把握は特に有利であり、サウンドエンジニアのワークフローに類似する。
本発明の原理は、数ある中でも画像、ビデオ、及びオーディオのデータ処理を行うための深層学習ベースの方法で、使用され得る。従って、前述の詳細説明から理解され得るように、本発明の原理は、本明細書で説明される技術的解決策により、ニューラルネットワークの適応及びトレーニングを向上させる。
本発明の原理は、いくつかの例示的な実施形態を参照して説明されたが、これらは限定を意図するものではなく、本明細書で特許請求される発明の主題を実施するために、様々な代替的構成が使用されてもよいことが、理解されよう。

Claims (20)

  1. 命令を実行可能な少なくとも1つのプロセッサを備える装置であって、
    前記命令は、前記少なくとも1つのプロセッサにより、
    分類済みのサウンドエフェクト(SFX)をレンダリングすることと、
    前記分類済みのSFXのSFXラベルを、少なくとも第1のビデオにおける属性のビデオ認識から導出された視覚的ラベルと、意味的にマッチングさせて、前記SFXラベルに対応付けられた分類済みのSFXを、前記第1のビデオに組み込むことと、
    を実行可能であり、
    前記SFXラベルを視覚的ラベルとマッチングさせることは、実際のコンピュータシミュレーションから得られた合成された細粒度SFXタグ及び粗粒度SFXタグを使用して訓練されたコンピュータ実装モデルを使用し、
    前記合成された細粒度SFXタグは任意のシミュレーションから別々に生成され、前記細粒度SFXタグは前記粗粒度SFXタグよりも多くのカテゴリを有する、前記装置。
  2. 前記命令は、
    前記第1のビデオにおける少なくとも1つのオブジェクトの認識に基づいて、前記視覚的ラベルを生成すること、
    を実行可能である、請求項1に記載の装置。
  3. 前記命令は、
    前記第1のビデオにおける少なくとも1つのアクションの認識に基づいて、前記視覚的ラベルを生成すること、
    を実行可能である、請求項1に記載の装置。
  4. 前記命令は、
    前記第1のビデオにおける少なくとも1つのキャプションの認識に基づいて、前記視覚的ラベルを生成すること、
    を実行可能である、請求項1に記載の装置。
  5. 前記命令は、SFXラベルと視覚的ラベルとのテキスト類似性を使用して、前記SFXラベルを前記視覚的ラベルと意味的にマッチングさせることを、実行可能である、請求項1に記載の装置。
  6. 前記命令は、
    前記視覚的ラベルに対応する第1の数値ベクトルを導出することと、
    前記SFXラベルに対応する第2の数値ベクトルを導出することと、
    前記第1の数値ベクトルと前記第2の数値ベクトルとの距離を少なくとも部分的に計算することにより、前記視覚的ラベルに対する前記SFXラベルの類似性を特定することと、
    を実行可能である、請求項1に記載の装置。
  7. 前記命令は、
    前記第1の数値ベクトルと、第1のSFXラベルに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXラベルに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXラベルは前記第2のSFXラベルよりも、前記視覚的ラベルに類似していると判定すること、
    を実行可能である、請求項6に記載の装置。
  8. 前記命令は、
    1つの視覚的ラベルを複数のSFXラベルにマッピングすること、
    を実行可能である、請求項6に記載の装置。
  9. 少なくとも第1のビデオの少なくとも1つの属性を記述する少なくとも1つの視覚的タグを生成することと、
    前記視覚的タグとサウンドエフェクト(SFX)タグとの意味的類似性に少なくとも部分的に基づいて、前記少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、前記第1のビデオに対応付けることと、
    を含み、
    前記視覚的タグは個々の視覚的数値ベクトルに関連付けられ、前記SFXタグは個々の視覚的数値ベクトルに関連付けられ、前記意味的類似性は少なくとも1つの視覚的ベクトル及び少なくとも1つのSFXベクトルとの間の距離を計算することによって少なくとも部分的に特定され、より近い距離は長い距離よりもビデオ及びSFXとの間のより近いマッチングを表し、各視覚的タグは上位k個の最も類似するSFXタグにマッピングされる、方法。
  10. 前記属性は、オブジェクトを含む、請求項9に記載の方法。
  11. 前記属性は、アクションを含む、請求項9に記載の方法。
  12. 前記属性は、キャプションを含む、請求項9に記載の方法。
  13. 前記距離はコサイン類似度距離を含む、請求項9に記載の方法。
  14. 前記距離はユークリッド距離を含む、請求項9に記載の方法。
  15. 1の数値ベクトルと、第1のSFXタグに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXタグに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXタグは前記第2のSFXタグよりも、前記視覚的タグに類似していると判定すること、
    を含む、請求項に記載の方法。
  16. 1つの視覚的タグを複数のSFXタグにマッピングすること、
    を含む、請求項9に記載の方法。
  17. 一時的信号ではなく、かつ命令を含む少なくとも1つのコンピュータストレージを備えるアセンブリであって、
    前記命令は、少なくとも1つのプロセッサにより、
    少なくとも第1のビデオを記述する少なくとも1つの視覚的タグを識別することと、
    前記視覚的タグとサウンドエフェクト(SFX)タグとの意味的類似性に少なくとも部分的に基づいて、前記少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、前記第1のビデオに対応付けることと、
    を実行可能であり、
    前記視覚的タグは個々の視覚的数値ベクトルに関連付けられ、前記SFXタグは個々の視覚的数値ベクトルに関連付けられ、前記意味的類似性は少なくとも1つの視覚的ベクトル及び少なくとも1つのSFXベクトルとの間の距離を計算することによって少なくとも部分的に特定され、より近い距離は長い距離よりもビデオ及びSFXとの間のより近いマッチングを表し、各視覚的タグは上位k個の最も類似するSFXタグにマッピングされる、前記アセンブリ。
  18. 前記プロセッサを備える、請求項17に記載のアセンブリ。
  19. 前記命令は、
    前記視覚的タグに対応する第1の数値ベクトルを導出することと、
    前記SFXタグに対応する第2の数値ベクトルを導出することと、
    前記第1の数値ベクトルと前記第2の数値ベクトルとの距離を少なくとも部分的に計算することにより、前記視覚的タグに対する前記SFXタグの類似性を特定することと、
    を実行可能である、請求項17に記載のアセンブリ。
  20. 前記命令は、
    前記第1の数値ベクトルと、第1のSFXタグに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXタグに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXタグは前記第2のSFXタグよりも、前記視覚的タグに類似していると判定すること、
    を実行可能である、請求項19に記載のアセンブリ。
JP2021564438A 2019-04-30 2020-04-14 テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング Active JP7277611B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/399,640 US11030479B2 (en) 2019-04-30 2019-04-30 Mapping visual tags to sound tags using text similarity
US16/399,640 2019-04-30
PCT/US2020/028143 WO2020223009A1 (en) 2019-04-30 2020-04-14 Mapping visual tags to sound tags using text similarity

Publications (2)

Publication Number Publication Date
JP2022531221A JP2022531221A (ja) 2022-07-06
JP7277611B2 true JP7277611B2 (ja) 2023-05-19

Family

ID=73016578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564438A Active JP7277611B2 (ja) 2019-04-30 2020-04-14 テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング

Country Status (5)

Country Link
US (1) US11030479B2 (ja)
EP (1) EP3963905A4 (ja)
JP (1) JP7277611B2 (ja)
CN (1) CN113767647A (ja)
WO (1) WO2020223009A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847186B1 (en) 2019-04-30 2020-11-24 Sony Interactive Entertainment Inc. Video tagging by correlating visual features to sound tags
US11157542B2 (en) * 2019-06-12 2021-10-26 Spotify Ab Systems, methods and computer program products for associating media content having different modalities
WO2022221716A1 (en) * 2021-04-15 2022-10-20 Artiphon, Inc. Multimedia music creation using visual input
CN114297439B (zh) * 2021-12-20 2023-05-23 天翼爱音乐文化科技有限公司 一种短视频标签确定方法、***、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020133A (ja) 2008-07-11 2010-01-28 Sony Corp 再生装置、表示方法および表示プログラム
US20170228599A1 (en) 2016-02-09 2017-08-10 Yahoo! Inc. Content-Based Video Representation
JP6442102B1 (ja) 2018-05-22 2018-12-19 株式会社フランティック 情報処理システム及び情報処理装置
US20190005128A1 (en) 2017-06-30 2019-01-03 Wipro Limited Method and system for generating a contextual audio related to an image

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818658B2 (en) * 2003-12-09 2010-10-19 Yi-Chih Chen Multimedia presentation system
EP2329419A4 (en) * 2008-09-15 2016-01-13 James A Aman AUTOMATED SESSION RECORDING WITH RULE-BASED INDEXING, ANALYSIS AND EXPRESSION OF CONTENT
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US9384214B2 (en) * 2009-07-31 2016-07-05 Yahoo! Inc. Image similarity from disparate sources
US9111582B2 (en) * 2009-08-03 2015-08-18 Adobe Systems Incorporated Methods and systems for previewing content with a dynamic tag cloud
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
CN102480671B (zh) * 2010-11-26 2014-10-08 华为终端有限公司 视频通信中的音频处理方法和装置
US20130073960A1 (en) * 2011-09-20 2013-03-21 Aaron M. Eppolito Audio meters and parameter controls
US20140181668A1 (en) * 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US9736580B2 (en) * 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US10388053B1 (en) * 2015-03-27 2019-08-20 Electronic Arts Inc. System for seamless animation transition
WO2018071557A1 (en) 2016-10-12 2018-04-19 Lr Acquisition, Llc Media creation based on sensor-driven events
US10699684B2 (en) * 2017-02-06 2020-06-30 Kodak Alaris Inc. Method for creating audio tracks for accompanying visual imagery
US11856315B2 (en) * 2017-09-29 2023-12-26 Apple Inc. Media editing application with anchored timeline for captions and subtitles
CN109587554B (zh) * 2018-10-29 2021-08-03 百度在线网络技术(北京)有限公司 视频数据的处理方法、装置及可读存储介质
GB2579208B (en) * 2018-11-23 2023-01-25 Sony Interactive Entertainment Inc Method and system for determining identifiers for tagging video frames with

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010020133A (ja) 2008-07-11 2010-01-28 Sony Corp 再生装置、表示方法および表示プログラム
US20170228599A1 (en) 2016-02-09 2017-08-10 Yahoo! Inc. Content-Based Video Representation
US20190005128A1 (en) 2017-06-30 2019-01-03 Wipro Limited Method and system for generating a contextual audio related to an image
JP6442102B1 (ja) 2018-05-22 2018-12-19 株式会社フランティック 情報処理システム及び情報処理装置

Also Published As

Publication number Publication date
US20200349387A1 (en) 2020-11-05
EP3963905A4 (en) 2023-02-15
EP3963905A1 (en) 2022-03-09
US11030479B2 (en) 2021-06-08
JP2022531221A (ja) 2022-07-06
CN113767647A (zh) 2021-12-07
WO2020223009A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
JP7470137B2 (ja) 視覚的特徴をサウンドタグに相関させることによるビデオタグ付け
US11281709B2 (en) System and method for converting image data into a natural language description
JP7277611B2 (ja) テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング
US11494612B2 (en) Systems and methods for domain adaptation in neural networks using domain classifier
US20230325663A1 (en) Systems and methods for domain adaptation in neural networks
US11640519B2 (en) Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
US20190172240A1 (en) Facial animation for social virtual reality (vr)
KR20210051349A (ko) 전자장치 및 그 제어방법
KR102416421B1 (ko) 터치 패드 입력을 갖는 게임 컨트롤러

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7277611

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150