JP7277611B2 - テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング - Google Patents
テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング Download PDFInfo
- Publication number
- JP7277611B2 JP7277611B2 JP2021564438A JP2021564438A JP7277611B2 JP 7277611 B2 JP7277611 B2 JP 7277611B2 JP 2021564438 A JP2021564438 A JP 2021564438A JP 2021564438 A JP2021564438 A JP 2021564438A JP 7277611 B2 JP7277611 B2 JP 7277611B2
- Authority
- JP
- Japan
- Prior art keywords
- sfx
- visual
- tags
- tag
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本開示を限定することなく、特定のモジュールにより実行されると述べられるロジックは、他のソフトウェアモジュールに再配分されてもよく、及び/または単一モジュール内に一緒に組み合わされてもよく、及び/または共有可能なライブラリで利用可能な状態にされてもよい。
Claims (20)
- 命令を実行可能な少なくとも1つのプロセッサを備える装置であって、
前記命令は、前記少なくとも1つのプロセッサにより、
分類済みのサウンドエフェクト(SFX)をレンダリングすることと、
前記分類済みのSFXのSFXラベルを、少なくとも第1のビデオにおける属性のビデオ認識から導出された視覚的ラベルと、意味的にマッチングさせて、前記SFXラベルに対応付けられた分類済みのSFXを、前記第1のビデオに組み込むことと、
を実行可能であり、
前記SFXラベルを視覚的ラベルとマッチングさせることは、実際のコンピュータシミュレーションから得られた合成された細粒度SFXタグ及び粗粒度SFXタグを使用して訓練されたコンピュータ実装モデルを使用し、
前記合成された細粒度SFXタグは任意のシミュレーションから別々に生成され、前記細粒度SFXタグは前記粗粒度SFXタグよりも多くのカテゴリを有する、前記装置。 - 前記命令は、
前記第1のビデオにおける少なくとも1つのオブジェクトの認識に基づいて、前記視覚的ラベルを生成すること、
を実行可能である、請求項1に記載の装置。 - 前記命令は、
前記第1のビデオにおける少なくとも1つのアクションの認識に基づいて、前記視覚的ラベルを生成すること、
を実行可能である、請求項1に記載の装置。 - 前記命令は、
前記第1のビデオにおける少なくとも1つのキャプションの認識に基づいて、前記視覚的ラベルを生成すること、
を実行可能である、請求項1に記載の装置。 - 前記命令は、SFXラベルと視覚的ラベルとのテキスト類似性を使用して、前記SFXラベルを前記視覚的ラベルと意味的にマッチングさせることを、実行可能である、請求項1に記載の装置。
- 前記命令は、
前記視覚的ラベルに対応する第1の数値ベクトルを導出することと、
前記SFXラベルに対応する第2の数値ベクトルを導出することと、
前記第1の数値ベクトルと前記第2の数値ベクトルとの距離を少なくとも部分的に計算することにより、前記視覚的ラベルに対する前記SFXラベルの類似性を特定することと、
を実行可能である、請求項1に記載の装置。 - 前記命令は、
前記第1の数値ベクトルと、第1のSFXラベルに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXラベルに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXラベルは前記第2のSFXラベルよりも、前記視覚的ラベルに類似していると判定すること、
を実行可能である、請求項6に記載の装置。 - 前記命令は、
1つの視覚的ラベルを複数のSFXラベルにマッピングすること、
を実行可能である、請求項6に記載の装置。 - 少なくとも第1のビデオの少なくとも1つの属性を記述する少なくとも1つの視覚的タグを生成することと、
前記視覚的タグとサウンドエフェクト(SFX)タグとの意味的類似性に少なくとも部分的に基づいて、前記少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、前記第1のビデオに対応付けることと、
を含み、
前記視覚的タグは個々の視覚的数値ベクトルに関連付けられ、前記SFXタグは個々の視覚的数値ベクトルに関連付けられ、前記意味的類似性は少なくとも1つの視覚的ベクトル及び少なくとも1つのSFXベクトルとの間の距離を計算することによって少なくとも部分的に特定され、より近い距離は長い距離よりもビデオ及びSFXとの間のより近いマッチングを表し、各視覚的タグは上位k個の最も類似するSFXタグにマッピングされる、方法。 - 前記属性は、オブジェクトを含む、請求項9に記載の方法。
- 前記属性は、アクションを含む、請求項9に記載の方法。
- 前記属性は、キャプションを含む、請求項9に記載の方法。
- 前記距離はコサイン類似度距離を含む、請求項9に記載の方法。
- 前記距離はユークリッド距離を含む、請求項9に記載の方法。
- 第1の数値ベクトルと、第1のSFXタグに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXタグに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXタグは前記第2のSFXタグよりも、前記視覚的タグに類似していると判定すること、
を含む、請求項9に記載の方法。 - 1つの視覚的タグを複数のSFXタグにマッピングすること、
を含む、請求項9に記載の方法。 - 一時的信号ではなく、かつ命令を含む少なくとも1つのコンピュータストレージを備えるアセンブリであって、
前記命令は、少なくとも1つのプロセッサにより、
少なくとも第1のビデオを記述する少なくとも1つの視覚的タグを識別することと、
前記視覚的タグとサウンドエフェクト(SFX)タグとの意味的類似性に少なくとも部分的に基づいて、前記少なくとも1つのSFXタグに対応付けられた少なくとも1つのSFXを、前記第1のビデオに対応付けることと、
を実行可能であり、
前記視覚的タグは個々の視覚的数値ベクトルに関連付けられ、前記SFXタグは個々の視覚的数値ベクトルに関連付けられ、前記意味的類似性は少なくとも1つの視覚的ベクトル及び少なくとも1つのSFXベクトルとの間の距離を計算することによって少なくとも部分的に特定され、より近い距離は長い距離よりもビデオ及びSFXとの間のより近いマッチングを表し、各視覚的タグは上位k個の最も類似するSFXタグにマッピングされる、前記アセンブリ。 - 前記プロセッサを備える、請求項17に記載のアセンブリ。
- 前記命令は、
前記視覚的タグに対応する第1の数値ベクトルを導出することと、
前記SFXタグに対応する第2の数値ベクトルを導出することと、
前記第1の数値ベクトルと前記第2の数値ベクトルとの距離を少なくとも部分的に計算することにより、前記視覚的タグに対する前記SFXタグの類似性を特定することと、
を実行可能である、請求項17に記載のアセンブリ。 - 前記命令は、
前記第1の数値ベクトルと、第1のSFXタグに対応付けられた第2の数値ベクトルとの距離が、前記第1の数値ベクトルと、第2のSFXタグに対応付けられた第2の数値ベクトルとの距離よりも小さいという判定に応じて、前記第1のSFXタグは前記第2のSFXタグよりも、前記視覚的タグに類似していると判定すること、
を実行可能である、請求項19に記載のアセンブリ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/399,640 US11030479B2 (en) | 2019-04-30 | 2019-04-30 | Mapping visual tags to sound tags using text similarity |
US16/399,640 | 2019-04-30 | ||
PCT/US2020/028143 WO2020223009A1 (en) | 2019-04-30 | 2020-04-14 | Mapping visual tags to sound tags using text similarity |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022531221A JP2022531221A (ja) | 2022-07-06 |
JP7277611B2 true JP7277611B2 (ja) | 2023-05-19 |
Family
ID=73016578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021564438A Active JP7277611B2 (ja) | 2019-04-30 | 2020-04-14 | テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング |
Country Status (5)
Country | Link |
---|---|
US (1) | US11030479B2 (ja) |
EP (1) | EP3963905A4 (ja) |
JP (1) | JP7277611B2 (ja) |
CN (1) | CN113767647A (ja) |
WO (1) | WO2020223009A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847186B1 (en) | 2019-04-30 | 2020-11-24 | Sony Interactive Entertainment Inc. | Video tagging by correlating visual features to sound tags |
US11157542B2 (en) * | 2019-06-12 | 2021-10-26 | Spotify Ab | Systems, methods and computer program products for associating media content having different modalities |
WO2022221716A1 (en) * | 2021-04-15 | 2022-10-20 | Artiphon, Inc. | Multimedia music creation using visual input |
CN114297439B (zh) * | 2021-12-20 | 2023-05-23 | 天翼爱音乐文化科技有限公司 | 一种短视频标签确定方法、***、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020133A (ja) | 2008-07-11 | 2010-01-28 | Sony Corp | 再生装置、表示方法および表示プログラム |
US20170228599A1 (en) | 2016-02-09 | 2017-08-10 | Yahoo! Inc. | Content-Based Video Representation |
JP6442102B1 (ja) | 2018-05-22 | 2018-12-19 | 株式会社フランティック | 情報処理システム及び情報処理装置 |
US20190005128A1 (en) | 2017-06-30 | 2019-01-03 | Wipro Limited | Method and system for generating a contextual audio related to an image |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7818658B2 (en) * | 2003-12-09 | 2010-10-19 | Yi-Chih Chen | Multimedia presentation system |
EP2329419A4 (en) * | 2008-09-15 | 2016-01-13 | James A Aman | AUTOMATED SESSION RECORDING WITH RULE-BASED INDEXING, ANALYSIS AND EXPRESSION OF CONTENT |
US8996538B1 (en) * | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
US9384214B2 (en) * | 2009-07-31 | 2016-07-05 | Yahoo! Inc. | Image similarity from disparate sources |
US9111582B2 (en) * | 2009-08-03 | 2015-08-18 | Adobe Systems Incorporated | Methods and systems for previewing content with a dynamic tag cloud |
US9031243B2 (en) * | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
CN102480671B (zh) * | 2010-11-26 | 2014-10-08 | 华为终端有限公司 | 视频通信中的音频处理方法和装置 |
US20130073960A1 (en) * | 2011-09-20 | 2013-03-21 | Aaron M. Eppolito | Audio meters and parameter controls |
US20140181668A1 (en) * | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
US9338420B2 (en) * | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
GB201315142D0 (en) * | 2013-08-23 | 2013-10-09 | Ucl Business Plc | Audio-Visual Dialogue System and Method |
US9736580B2 (en) * | 2015-03-19 | 2017-08-15 | Intel Corporation | Acoustic camera based audio visual scene analysis |
US10388053B1 (en) * | 2015-03-27 | 2019-08-20 | Electronic Arts Inc. | System for seamless animation transition |
WO2018071557A1 (en) | 2016-10-12 | 2018-04-19 | Lr Acquisition, Llc | Media creation based on sensor-driven events |
US10699684B2 (en) * | 2017-02-06 | 2020-06-30 | Kodak Alaris Inc. | Method for creating audio tracks for accompanying visual imagery |
US11856315B2 (en) * | 2017-09-29 | 2023-12-26 | Apple Inc. | Media editing application with anchored timeline for captions and subtitles |
CN109587554B (zh) * | 2018-10-29 | 2021-08-03 | 百度在线网络技术(北京)有限公司 | 视频数据的处理方法、装置及可读存储介质 |
GB2579208B (en) * | 2018-11-23 | 2023-01-25 | Sony Interactive Entertainment Inc | Method and system for determining identifiers for tagging video frames with |
-
2019
- 2019-04-30 US US16/399,640 patent/US11030479B2/en active Active
-
2020
- 2020-04-14 CN CN202080032378.3A patent/CN113767647A/zh active Pending
- 2020-04-14 WO PCT/US2020/028143 patent/WO2020223009A1/en unknown
- 2020-04-14 JP JP2021564438A patent/JP7277611B2/ja active Active
- 2020-04-14 EP EP20798315.6A patent/EP3963905A4/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020133A (ja) | 2008-07-11 | 2010-01-28 | Sony Corp | 再生装置、表示方法および表示プログラム |
US20170228599A1 (en) | 2016-02-09 | 2017-08-10 | Yahoo! Inc. | Content-Based Video Representation |
US20190005128A1 (en) | 2017-06-30 | 2019-01-03 | Wipro Limited | Method and system for generating a contextual audio related to an image |
JP6442102B1 (ja) | 2018-05-22 | 2018-12-19 | 株式会社フランティック | 情報処理システム及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200349387A1 (en) | 2020-11-05 |
EP3963905A4 (en) | 2023-02-15 |
EP3963905A1 (en) | 2022-03-09 |
US11030479B2 (en) | 2021-06-08 |
JP2022531221A (ja) | 2022-07-06 |
CN113767647A (zh) | 2021-12-07 |
WO2020223009A1 (en) | 2020-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7470137B2 (ja) | 視覚的特徴をサウンドタグに相関させることによるビデオタグ付け | |
US11281709B2 (en) | System and method for converting image data into a natural language description | |
JP7277611B2 (ja) | テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング | |
US11494612B2 (en) | Systems and methods for domain adaptation in neural networks using domain classifier | |
US20230325663A1 (en) | Systems and methods for domain adaptation in neural networks | |
US11640519B2 (en) | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization | |
US20190172240A1 (en) | Facial animation for social virtual reality (vr) | |
KR20210051349A (ko) | 전자장치 및 그 제어방법 | |
KR102416421B1 (ko) | 터치 패드 입력을 갖는 게임 컨트롤러 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7277611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |