JP7101315B2 - 画像データを自然言語の説明に変換するためのシステム及び方法 - Google Patents
画像データを自然言語の説明に変換するためのシステム及び方法 Download PDFInfo
- Publication number
- JP7101315B2 JP7101315B2 JP2021530948A JP2021530948A JP7101315B2 JP 7101315 B2 JP7101315 B2 JP 7101315B2 JP 2021530948 A JP2021530948 A JP 2021530948A JP 2021530948 A JP2021530948 A JP 2021530948A JP 7101315 B2 JP7101315 B2 JP 7101315B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- feature vector
- attention
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
(a)前のタイムステップにおいてキャプショニングNNによって予測された単語埋め込み、(b)キャプショニングNNからの最後の隠れ状態、(c)画像の平均プーリングされた特徴表現、及び(d)特徴のセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴のうちの少なくとも2つを含むことができる入力に基づいてコンテキストベクトルを出力する。
pθ(wt|w1,...wt-1)=σ(Wwh2 t)であり、式中、WW∈RHxV及びθはモデルパラメータである。タイムステップt-1で予測される単語は、
wt=argmax(w)p0(w|w1,...wt-1)である。
xst=σ(Whh1 t[+]σ(WrXrb));(ここで[+]は直和を示す)及び
βt=σ(Ws2σ(Ws1xst))であり、式中、Wr∈RKxD、Wh∈RKxM、Ws1∈RPxK、及びWs2∈RKである。入力された領域特徴ベクトルβtにわたる注意分布が与えられると、1312で、N個の異なる領域特徴を第1のNN1300の出力と結合して(例えば、融合させて)、βixrbiのi=1~Nにわたる合計に等しいコンテキスト特徴ベクトル1314(xctとラベル付けされている)を出力することができる。
Claims (20)
- 少なくとも1つのプロセッサと、
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、前記少なくとも1つのプロセッサにより、
画像を受信することと、
畳み込みニューラルネットワーク(CNN)を使用して前記画像を処理して特徴マップを生成することと、
ニューラルネットワーク(NN)を使用して少なくとも前記特徴マップのうちの第1の特徴マップを処理して前記画像の少なくとも1つの特性を表す少なくとも1つの注意ベクトルを生成することと、
前記注意ベクトルを前記第1の特徴マップと結合して出力特徴ベクトルをレンダリングすることと、
前記出力特徴ベクトルを前記第1の特徴マップから導出されたプーリング済みの特徴ベクトルと結合して最終特徴ベクトルをレンダリングすることと、
少なくとも前記最終特徴ベクトルをキャプション生成ネットワークに入力して前記画像の自然言語のキャプションを生成することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置とを含む、装置。 - 前記命令を実行する前記少なくとも1つのプロセッサと、人間が知覚できる形式で前記キャプションを提示するための少なくとも1つの出力デバイスとを含む、請求項1に記載の装置。
- 前記画像がビデオゲームからの画像である、請求項1に記載の装置。
- 前記NNが多層パーセプトロン(MLP)を含む、請求項1に記載の装置。
- 前記命令が、前記出力特徴ベクトルをレンダリングするために前記注意ベクトルとの前記第1の特徴マップ内の特徴ベクトルにわたる加重和を実行することによって前記注意ベクトルを前記第1の特徴マップと結合することを行うように実行可能である、請求項1に記載の装置。
- 前記命令が、前記出力特徴ベクトルと前記プーリング済みの特徴ベクトルとの要素ごとの加算を実行することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項1に記載の装置。
- 前記命令が、前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと連結することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項1に記載の装置。
- 一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
少なくとも1つの畳み込みニューラルネットワーク(CNN)を含む特徴生成モジュールを使用して画像を処理してボトムアップ特徴情報を出力することと、
前記ボトムアップ特徴情報を、前記画像を説明する自然言語のキャプションを出力するキャプション生成モジュールに入力することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含み、
前記特徴生成モジュール及び/または前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報から導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、装置。 - 前記特徴生成モジュールが、注意ベクトルからの情報を特徴ベクトルのソースから導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、請求項8に記載の装置。
- 前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報に関連付けられた特徴ベクトルから導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、請求項8に記載の装置。
- 前記特徴生成モジュールの前記残差トップダウンネットワークが、
少なくとも前記CNNからの第1の特徴マップを処理して前記画像の少なくとも1つの特性を表す少なくとも1つの注意ベクトルを生成するためのニューラルネットワーク(NN)を含み、
前記注意ベクトルが、前記第1の特徴マップと結合されて出力特徴ベクトルをレンダリングし、前記出力特徴ベクトルが、前記第1の特徴マップから導出されたプーリング済みの特徴ベクトルと結合されて前記キャプション生成モジュールに入力するための最終特徴ベクトルをレンダリングする、請求項9に記載の装置。 - 前記NNが多層パーセプトロン(MLP)を含む、請求項11に記載の装置。
- 前記キャプション生成モジュールが、
前記特徴生成モジュールからの特徴ベクトルを処理するための第1のNNと、
コンテキストベクトルを出力するための第2のNNと、
前記第1及び第2のNNによる出力を受信して、前記第1のNNの出力と結合される出力を生成することにより、1つ以上のベクトルと結合するための入力をレンダリングして結果をレンダリングするための第3のNNとを含む、請求項10に記載の装置。 - 注意ベクトルを使用して前記特徴ベクトルを注意深くプーリングすることにより、注意深くプーリングされた特徴ベクトルを生成する、請求項13に記載の装置。
- 前記注意深くプーリングされた特徴ベクトルが、入力から自然言語の単語を生成するニューラルネットワークに入力するために前記平均プーリングベクトルと結合される、請求項14に記載の装置。
- 入力から自然言語の単語を生成する前記ニューラルネットワークが長短期記憶(LSTM)モジュールを含む、請求項15に記載の装置。
- 一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
第1のニューラルネットワーク(NN)を使用して画像の特性を表す特徴ベクトルを処理することと、
第3のNNを使用して第2のNNによって出力されたコンテキストベクトルを処理することと、
前記第1のNNの出力を前記第3のNNの出力と結合して入力をレンダリングすることと、
第4のNNを使用して前記入力を処理して注意ベクトルをレンダリングすることと、
前記注意ベクトルを前記コンテキストベクトルと結合して結合ベクトルをレンダリングすることと、
前記結合ベクトルを前記特徴ベクトルから導出されたプーリング済みのベクトルと結合して最終特徴ベクトルをレンダリングすることと、
キャプショニングNNを使用して前記最終特徴ベクトルを処理して、前記画像を説明する少なくとも1つの単語を生成することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含む、装置。 - 前記最終特徴ベクトルを処理する動作が、少なくとも部分的に長短期記憶(LSTM)ニューラルネットワークを使用して実行される、請求項17に記載の装置。
- 前記第2のNNが、
前のタイムステップにおいて前記キャプショニングNNによって予測された単語埋め込み、
前記キャプショニングNNからの最後の隠れ状態、
前記画像の平均プーリングされた特徴表現、
領域特徴ベクトルのセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴から選択された2つ以上の入力を含む入力に基づいて前記コンテキストベクトルを出力する、請求項17に記載の装置。 - 一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
第1のニューラルネットワーク(NN)を使用して特徴ベクトルを処理することと、
少なくとも1つのコンテキストベクトルを第2のNNに入力することと、
第3のNNであって、注意情報を出力する前記第3のNNに入力するために前記第1及び第2のNNの出力を結合することと、
前記注意情報を前記第1のNNの出力と結合して、前記特徴ベクトルによって表現された画像のキャプションの単語を予測するのに有用なコンテキスト特徴ベクトルを出力することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含む、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/206,439 US10726062B2 (en) | 2018-11-30 | 2018-11-30 | System and method for converting image data into a natural language description |
US16/206,439 | 2018-11-30 | ||
PCT/US2019/063298 WO2020112808A1 (en) | 2018-11-30 | 2019-11-26 | System and method for converting image data into a natural language description |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022510282A JP2022510282A (ja) | 2022-01-26 |
JP7101315B2 true JP7101315B2 (ja) | 2022-07-14 |
Family
ID=70848746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021530948A Active JP7101315B2 (ja) | 2018-11-30 | 2019-11-26 | 画像データを自然言語の説明に変換するためのシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10726062B2 (ja) |
EP (1) | EP3888005A4 (ja) |
JP (1) | JP7101315B2 (ja) |
CN (1) | CN113168523A (ja) |
WO (1) | WO2020112808A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298663B (zh) * | 2018-03-22 | 2023-04-28 | ***股份有限公司 | 基于序列宽深学习的欺诈交易检测方法 |
CN111563209B (zh) * | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
CN109960747B (zh) * | 2019-04-02 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 视频描述信息的生成方法、视频处理方法、相应的装置 |
CN109871909B (zh) * | 2019-04-16 | 2021-10-01 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
WO2021061450A1 (en) * | 2019-09-27 | 2021-04-01 | Qsinx Management Llc | Scene-to-text conversion |
WO2021087334A1 (en) * | 2019-11-01 | 2021-05-06 | Vannevar Labs, Inc. | Neural network-based optical character recognition |
US11455813B2 (en) * | 2019-11-14 | 2022-09-27 | Nec Corporation | Parametric top-view representation of complex road scenes |
CN111753825A (zh) * | 2020-03-27 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、***、介质及电子设备 |
CN111860235B (zh) * | 2020-07-06 | 2021-08-06 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及*** |
ES2891782A1 (es) * | 2020-07-23 | 2022-01-31 | Fly Fut S L | Metodo para la generacion automatica de videos de eventos deportivos basados en transmisiones y retrasmisiones de imagenes grabadas por dron |
US12045288B1 (en) * | 2020-09-24 | 2024-07-23 | Amazon Technologies, Inc. | Natural language selection of objects in image data |
CN112396035A (zh) * | 2020-12-07 | 2021-02-23 | 国网电子商务有限公司 | 基于注意力检测模型的物体检测方法和装置 |
CN112418209B (zh) * | 2020-12-15 | 2022-09-13 | 润联软件***(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN112488111B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
US20220253633A1 (en) * | 2021-02-08 | 2022-08-11 | Meta Platforms, Inc. | Classifying a video stream using a self-attention-based machine-learning model |
US11729476B2 (en) * | 2021-02-08 | 2023-08-15 | Sony Group Corporation | Reproduction control of scene description |
CN113158791B (zh) * | 2021-03-15 | 2022-08-16 | 上海交通大学 | 一种以人为中心的图像描述标注方法、***、终端及介质 |
CN112906707B (zh) * | 2021-05-10 | 2021-07-09 | 武汉科技大学 | 一种表面缺陷图像的语义分割方法、装置及计算机设备 |
CN113315789B (zh) * | 2021-07-29 | 2021-10-15 | 中南大学 | 一种基于多级联合网络的Web攻击检测方法及*** |
CN113779938B (zh) * | 2021-08-13 | 2024-01-23 | 同济大学 | 基于视觉与主题协同注意力的连贯性故事生成***及方法 |
US20230237280A1 (en) * | 2022-01-21 | 2023-07-27 | Dell Products L.P. | Automatically generating context-based alternative text using artificial intelligence techniques |
CN114708474A (zh) * | 2022-03-14 | 2022-07-05 | 电子科技大学 | 一种融合局部和全局特征的图像语义理解算法 |
CN114895275B (zh) * | 2022-05-20 | 2024-06-14 | 中国人民解放军国防科技大学 | 基于高效多维注意力神经网络的雷达微动手势识别方法 |
CN114782538B (zh) * | 2022-06-16 | 2022-09-16 | 长春融成智能设备制造股份有限公司 | 一种应用于灌装领域兼容不同桶型视觉定位方法 |
WO2024124133A1 (en) * | 2022-12-08 | 2024-06-13 | Google Llc | Video-text modeling with zero-shot transfer from contrastive captioners |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121734A1 (en) | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction |
JP2019537147A (ja) | 2016-11-18 | 2019-12-19 | セールスフォース ドット コム インコーポレイティッド | 画像キャプション生成のための空間的注目モデル |
JP2020533696A (ja) | 2017-09-11 | 2020-11-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 画像認識方法、端末及び記憶媒体 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200919210A (en) * | 2007-07-18 | 2009-05-01 | Steven Kays | Adaptive electronic design |
US10525349B2 (en) * | 2015-06-12 | 2020-01-07 | Sony Interactive Entertainment Inc. | Information processing apparatus |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
US10354168B2 (en) | 2016-04-11 | 2019-07-16 | A2Ia S.A.S. | Systems and methods for recognizing characters in digitized documents |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN108829677B (zh) * | 2018-06-05 | 2021-05-07 | 大连理工大学 | 一种基于多模态注意力的图像标题自动生成方法 |
-
2018
- 2018-11-30 US US16/206,439 patent/US10726062B2/en active Active
-
2019
- 2019-11-26 JP JP2021530948A patent/JP7101315B2/ja active Active
- 2019-11-26 WO PCT/US2019/063298 patent/WO2020112808A1/en unknown
- 2019-11-26 EP EP19888898.4A patent/EP3888005A4/en active Pending
- 2019-11-26 CN CN201980079109.XA patent/CN113168523A/zh active Pending
-
2020
- 2020-07-28 US US16/941,299 patent/US11281709B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180121734A1 (en) | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction |
JP2019537147A (ja) | 2016-11-18 | 2019-12-19 | セールスフォース ドット コム インコーポレイティッド | 画像キャプション生成のための空間的注目モデル |
JP2020533696A (ja) | 2017-09-11 | 2020-11-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 画像認識方法、端末及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US11281709B2 (en) | 2022-03-22 |
US20200175053A1 (en) | 2020-06-04 |
JP2022510282A (ja) | 2022-01-26 |
US20200372058A1 (en) | 2020-11-26 |
WO2020112808A1 (en) | 2020-06-04 |
CN113168523A (zh) | 2021-07-23 |
EP3888005A4 (en) | 2022-10-26 |
US10726062B2 (en) | 2020-07-28 |
EP3888005A1 (en) | 2021-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7101315B2 (ja) | 画像データを自然言語の説明に変換するためのシステム及び方法 | |
JP7470137B2 (ja) | 視覚的特徴をサウンドタグに相関させることによるビデオタグ付け | |
JP2022171662A (ja) | ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
CN112997199A (zh) | 用于神经网络中的域适配的***和方法 | |
JP7277611B2 (ja) | テキスト類似性を使用した視覚的タグのサウンドタグへのマッピング | |
JP2022509485A (ja) | クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
US11756251B2 (en) | Facial animation control by automatic generation of facial action units using text and speech | |
US11967087B2 (en) | Dynamic vision sensor for visual audio processing | |
CN111699529A (zh) | 用于社交虚拟现实(vr)的面部动画 | |
US20200349976A1 (en) | Movies with user defined alternate endings | |
JP2022529856A (ja) | タッチパッド入力を備えたゲームコントローラ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7101315 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |