JP7292657B2 - データ処理方法、データ処理装置、コンピュータプログラム及び電子装置 - Google Patents

データ処理方法、データ処理装置、コンピュータプログラム及び電子装置 Download PDF

Info

Publication number
JP7292657B2
JP7292657B2 JP2021541499A JP2021541499A JP7292657B2 JP 7292657 B2 JP7292657 B2 JP 7292657B2 JP 2021541499 A JP2021541499 A JP 2021541499A JP 2021541499 A JP2021541499 A JP 2021541499A JP 7292657 B2 JP7292657 B2 JP 7292657B2
Authority
JP
Japan
Prior art keywords
data
target
processing
neural network
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541499A
Other languages
English (en)
Other versions
JP2022520000A (ja
Inventor
▲燦▼苗 付
▲瓊▼ 曹
文杰 裴
小勇 沈
宇▲榮▼ 戴
佳▲亞▼ ▲賈▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022520000A publication Critical patent/JP2022520000A/ja
Application granted granted Critical
Publication of JP7292657B2 publication Critical patent/JP7292657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本出願は、2019年05月31日に中国専利局に提出した、出願番号が201910472128.0であって、発明の名称が「データ処理方法、装置、記憶媒体及び電子装置」である中国特許出願の優先権を主張し、本願で、その全ての内容を援用するものとする。
本出願は、コンピュータ分野に関し、具体的に、データ処理方法、装置、記憶媒体及び電子装置に関する。
現在、シーケンスデータモデリングは、視覚処理(例えば、ビデオ理解の分類、異常な動きの検出)、テキスト分析(例えば、感情分類)、対話システムなどに適用される。
シーケンスモデリングに使用される方法として、グラフィカルモデルがあり、グラフィカルモデルは、生成モデル(生成式グラフィカルモデル)及び判別モデル(判別式グラフィカルモデル)の2つのカテゴリに分けることができる。生成モデルの一例として、隠れマルコフモデルは、チェーンにおけるシーケンスデータに対して潜在的な特定特徴をモデリングできる。判別モデルは、入力データに従ってすべてのカテゴリラベルの分布をモデリングし、判別モデルの一例は、条件付きランダムフィールドである。
シーケンスモデルは、ループニューラルネットワークに基づいて、時系列における情報を抽出し、例えば、RNN/LSTM(Recurrent Neural Network/Long Short-Term Memory、ループニューラルネットワーク/長短期記憶ネットワーク)に基づいてシーケンスモデリングすることであってもよく、多くのタスクで優れた性能を発揮する。グラフィカルモデルと比較して、再帰型ニューラルネットワークは最適化が容易であり、時間モデリング機能が優れる。
しかしながら、現在のシーケンスモデルモデリングの精度は低く、視覚処理、テキスト分析、及び対話システムなどのシナリオで幅広く利用することは困難である。
本出願の実施例は、データ処理方法、装置、記憶媒体及び電子装置を提供し、少なくとも、関連技術のシーケンスモデルモデリングの精度が低く、幅広く使用しにくいという技術問題を解決するようになる。
本出願の実施例の1つの態様によれば、データ処理方法を提供し、ターゲットシーケンスデータを取得するステップであって、ターゲットシーケンスデータは、時系列でソートされたN組のデータを含み、前記Nが1より大きいステップと、前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得するステップであって、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数であるステップと、を含む。
本出願の実施例の他の態様によれば、データ処理装置をさらに提供し、時系列でソートされたN組のデータを含むターゲットシーケンスデータを取得するための通信モジュールであって、前記Nが1より大きい通信モジュールと、前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得するための処理モジュールであって、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数である処理モジュールと、を含む。
本出願の実施例のさらに他の態様によれば、記憶媒体をさらに提供し、当該記憶媒体にコンピュータプログラムが記憶され、当該コンピュータプログラムは、実行される場合、上記の方法を実行するように設置される。
本出願の実施例のさらに他の態様によれば、電子装置をさらに提供し、メモリ、プロセッサー、及びメモリに記憶されプロセッサーで実行されるコンピュータプログラムを含み、さらに、上記のプロセッサーはコンピュータプログラムによって上記の方法を実行する。
本出願の実施例のさらに他の態様によれば、コンピュータプログラムをさらに提供し、当該コンピュータプログラムがコンピュータで実行される場合、前記コンピュータに上記のデータ処理方法を実行させる。
本出願の実施例では、ターゲットシーケンスデータに含まれるN組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルによる第i組のデータへの処理結果,及びターゲットニューラルネットワークモデルによる第i+1組のデータにおけるj番目のデータへの処理結果に従って、ターゲットニューラルネットワークモデルを使用して、第i+1組のデータにおけるj+1番目のデータを処理し、ターゲットニューラルネットワークモデル(例えば,LSTMモデル)は、入力された現在データ(即ち、第i+1組のデータにおけるj+1番目のデータ)を処理する場合、隣接するタイムを取得するステップの情報(1つ前の処理結果、即ち、第i+1組のデータにおけるj番目のデータへの処理結果)だけでなく、現在の組のデータの1つ前の組のデータ(即ち、第i組のデータ)、及び一つ前の組のデータへの処理結果(一つ前の処理結果、即ち、第i組のデータへの処理結果)に基づいて、長期的な依存関係をキャプチャでき、長期的な依存関係をモデリングすることで、関連技術のシーケンスモデルで長期的な依存関係をモデリングできないため、モデリングの精度が低いという問題を解決できる。上記の方法により得られたモデルは、視覚処理、テキスト分析、及び対話システムなどのシーンに幅広く使用できる。
ここで説明する図面は、本出願のさらなる理解を提供し、本出願の一部を構成する。本出願の例示的な実施例及び説明は、本出願を説明するためのもので、本出願の不適切な制限を構成するものではない。
本出願の実施例によるデータ処理方法の適用環境の概略図である。 本出願の実施例によるデータ処理方法の流れ概略図である。 本出願の実施例によるデータ処理方法の概略図である。 本出願の実施例による他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるさらに他のデータ処理方法の概略図である。 本出願の実施例によるデータ処理装置の構成概略図である。 本出願の実施例による電子装置の構成概略図である。
当業者に本出願の解決策をよりよく理解させるために、次に本出願の実施例における図面に基づいて、本出願の実施例における技術案を明確かつ完全に説明する。明らかに、説明する実施例は、全ての実施例ではなく、本出願の実施例の一部にすぎない。本出願における実施例に基づいて、当業者が創造的な労力をしない前提で得る全ての他の実施例は、本出願の保護の範囲に属する。
なお、本出願の明細書及び特許請求の範囲及び上記の図面における「第1の」、「第2の」などの用語は、類似の対象を区別するためのものであり、必ずしも特定の順序又は優先を説明するわけではない。このように使用されるデータは、適切な状況で交換することができ、その結果、本明細書に記載の本出願の実施例は、本明細書に図示または記載されたもの以外の順序で実施できることを理解すべきである。また、「含む」および「有する」という用語およびそれらの変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、またはデバイスは、必ずしも明確に記載されているステップまたはユニットに限定されず、明確に記載されていない、またはこれらのプロセス、方法、製品、またはデバイスに固有の他のステップまたはユニットを含む。
関連技術のシーケンスモデルは、一区切りのシーケンスにおける隣接するタイムステップの情報のみをキャプチャし、シーケンスで隣接するタイムステップ間の1次情報インタラクションを明示的にモデリングする。隣接していないタイムステップ間の高次の情報インタラクションをキャプチャできないため、隣接していないタイムステップ間の高次の情報インタラクションを十分に活用できない。
実際の適用では、1つシーケンスデータは数千または数百のタイムステップを含む可能性があり、1次情報インタラクションは、情報が時間の経過とともに徐々に希薄化し、勾配が分散し、まったく処理できないため、長期的な依存関係をモデリングできない。これにより、モデルによって長時間依存データをモデリングする能力が制限され、ひいてはモデルによって長距離時間依存性の問題を処理する能力が制限される。
上記の問題を解決するために、本出願の実施例の1つの態様によれば、データ処理方法を提供する。任意選択で、上記のデータ処理方法は、図1に示す適用環境に適用することができるが、これに限定されない。図1に示すように、上記のデータ処理方法は、ネットワーク104を介した端末デバイス102とサーバー106との間のインタラクションに関する。
端末デバイス102は、ターゲットシーケンスデータを収集するか又は他のデバイスからターゲットシーケンスデータを取得し、ターゲットシーケンスデータをネットワーク104を介してサーバー106に送信することができる。なお、ターゲットシーケンスデータは、時系列にソートされた複数の組のデータを含む。
サーバー106は、ターゲットシーケンスデータを取得した後、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順番に入力し、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得できる。なお、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果に従って、現在データを処理する。
任意選択で、データ処理結果を取得した後、サーバー106は、データ処理結果に応じてターゲットタスクの実行結果を決定でき、決定した実行結果をネットワーク104を介して端末デバイス104に送信し、端末デバイス104によって実行結果を保存してもよく、さらに実行結果を表示してもよい。
図1では、サーバー106がターゲットニューラルネットワークモデルを使用して、ターゲットシーケンスデータ(時系列に並べられたN組のデータを含み、Nが1より大きい)における各組のデータに含まれる各データに対して上記の処理を行うことを例として説明する。いくつかの実現形態では、サーバー106は、処理プロセスで、ある組のデータにおけるあるデータの処理結果に基づいて、ターゲットタスクの実行結果を決定してもよい。このとき、サーバー106は、ターゲットシーケンスデータにおける当該データの後のデータの処理手順を実行せず、現在の処理手順を終了してもよい。
つまり、サーバー106は、ターゲットニューラルネットワークモデルを使用して,ターゲットシーケンスデータにおける部分のデータに対して上記の処理手順を実行してもよい。理解を容易にするために、以下、第i+1組のデータにおけるj+1番目のデータの処理手順を例として説明する。
具体的に、サーバー106は、まず第i組のデータ、ターゲットニューラルネットワークモデルの第i組のデータへの処理結果、及びターゲットニューラルネットワークモデルの第i+1組のデータにおけるj番目のデータへの処理結果を取得し、そして、サーバー106は、第i組のデータ、ターゲットニューラルネットワークモデルの第i組のデータへの処理結果、及びターゲットニューラルネットワークモデルの第i+1組のデータにおけるj番目のデータへの処理結果に従って、ターゲットニューラルネットワークモデルを使用して、第i+1組のデータにおけるj+1番目のデータを処理し、ターゲットニューラルネットワークモデルの第i+1組のデータにおけるj+1番目のデータへの処理結果を取得する。
上記のiは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数である。
なお、第1の組のデータに対して、第1の組のデータの一つ前の組のデータ及び一つ前の組のデータの処理結果を0とみなすことができ、そして、上記の処理方式で処理する。各組のデータの1番目のデータに対して、当該1番目のデータの1つ前のデータの処理結果を0とみなすことができ、そして、上記の処理方式で処理する。
上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析(例えば、感情分類)、対話システムなどを含むが、これらに限定されない。
任意選択で、本実施例では、上記の端末デバイスは、携帯電話、タブレットコンピュータなどの少なくとも一つを含むが、これらに限定されない。上記のネットワークは、無線ネットワーク、有線ネットワークの少なくとも一つを含むが、これらに限定されない。さらに、当該無線ネットワークは、ブルートゥース(登録商標)、無線フィデリティ(Wireless-Fidelity,WIFI)、他の無線通信を実現するネットワークを含む。当該有線ネットワークは、ローカルネットワーク、メトロポリタンエリアネットワーク、ワイドエリアネットワークなどを含んでもよい。上記のサーバーは、ターゲットニューラルネットワークモデルを使用して、ターゲットシーケンスモデルを処理するデバイスの少なくとも一つを含むが、これらに限定されない。上記は一例に過ぎず、本実施例では、これを限定しない。
任意選択で、本実施例では、任意選択の実施形態として、図2に示すように、上記のデータ処理方法は、次のステップを含んでもよい。
S202、ターゲットシーケンスデータを取得し、ターゲットシーケンスデータは、時系列にソートされたN組のデータを含む。
S204、N組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、各組のデータにおける各データがターゲットニューラルネットワークモデルに入力される場合、現在の組のデータにおける現在データと見なされ、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果に従って、現在データを処理する。
S206、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得する。
図1と同様に、図2もターゲットデータシーケンスにおけるN組のデータのそれぞれに対して上記の処理を行うことを例として説明する。実際の適用では、ターゲットデータシーケンスにおける若干のデータに対して上記の処理を行ってもよく、本実施例では、これを限定しない。
任意選択で、上記のデータ処理方法は、ターゲットニューラルネットワークを使用してターゲットタスクを実行するプロセスに適用してもよいが、これに限定されない。上記のターゲットタスクは、ターゲットシーケンスデータの時系列の情報に従って、ターゲットタスクを実行する実行結果を決定してもよい。例えば、上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析(例えば、感情分類)、対話システムなどである。
例えば、アクションの分類を例として、ビデオデータはシーケンスデータであり、各データは1つのビデオフレーム(ビデオ画像)であり、ビデオデータをターゲットニューラルモデルに入力して、ビデオデータの処理結果を取得する。ビデオデータの処理結果に従って、一組のアクションから、ビデオデータにおけるオブジェクトによって実行されるアクション、例えば、相手に向かって歩くアクションを決定する。
例えば、感情の認識を例として、テキストデータ(例えば商品レビュー、実際の製品であってもよく、仮想サービスなどであってもよい)におけるセンテンスの内部及びセンテンスの間に前後順序があり、時系列にソートされたデータとみなすことができる。テキストデータをターゲットニューラルモデルに入力し、テキストデータの処理結果を取得する。テキストデータの処理結果に従って、一組の感情から、テキストデータの感情的な傾向、例えば、ポジティブ(良いレビュー)、ネガティブ(悪いレビュー)などを決定する。
次に、図2を基づいて、本実施例における上記のデータ処理方法を説明する。
ステップS202では、ターゲットシーケンスデータを取得し、ターゲットシーケンスデータは、時系列にソートされたN組のデータを含む。
サーバー(又は、端末デバイス)は、ターゲットタスクを実行でき、上記のターゲットタスクは、ビデオ理解の分類(例えば、アクション認識)、テキスト分析(感情分析)、対話システムであってもよい。サーバーは、ターゲットタスクに関するターゲットシーケンスデータを分析し、ターゲットタスクの実行結果を決定してもよい。
上記のターゲットシーケンスデータは、時系列にソートされた複数のデータを含んでもよい。ターゲットシーケンスデータが時系列にソートされる方式は、複数があり、例えば、ビデオデータの場合、ビデオデータにおけるビデオフレーム(画像)を時間の順序に応じてソートし、テキストデータの場合、テキストにおける単語の出現順序に応じてソートする。なお、単語は、独立して使用できる言語単位である。単語は、「私」や「山」などの1文字の単語であってもよく、「好き」や「社会」などの1文字以外の単語であってもよい。少なくとも1つの単語を組み合わせてフレーズを形成し、少なくとも1つのフレーズを順に組み合わせて語句を形成し、少なくとも1つの語句を順に組み合わせてテキストを形成する。
任意選択の実施形態として、ターゲットシーケンスデータを取得するステップは、ターゲットビデオデータを取得するステップを含み、ターゲットビデオデータは、時系列にソートされたN組のビデオフレームグループを含み、ターゲットビデオデータは、ターゲットビデオデータにおけるターゲットオブジェクトによって実行されるアクションの認識を実行するためのものである。
任意選択の実施形態として、ターゲットシーケンスデータを取得するステップは、ターゲットテキストデータを取得するステップを含み、ターゲットテキストデータは、少なくとも1つのセンテンスを含み、少なくとも1つのセンテンスは、前後順序を有するN個のフレーズを含み、ターゲットテキストデータは、ターゲットテキストデータが表す感情タイプの認識を実行するためのものである。
本出願の実施例の上記の技術案によれば、異なるタイプのターゲットタスクに対して異なるターゲットシーケンスデータを取得することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させることができる。
ターゲットシーケンスデータを取得した後、ターゲットシーケンスデータをグループ化することができ、ターゲットシーケンスデータを時系列に複数の組のデータに分割することができる。
任意選択で、本実施例では、ターゲットシーケンスデータを取得した後、ターゲットのスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、複数の組のデータを取得する。
シーケンスモデルの処理効率を確保するために、ターゲットスライディングウィンドウのウィンドウサイズをターゲットステップサイズと同じに設置してもよい。シーケンスモデルの処理精度を確保するために、ターゲットスライディングウィンドウのウィンドウサイズをターゲットステップサイズより大きく設置してもよい。
異なるタイプのターゲットシーケンスデータ、又は異なるターゲットシーケンスデータに対して、使用するターゲットスライディングウィンドウのウィンドウサイズとターゲットステップサイズとは、同じでも異なっても構わない。同じターゲットシーケンスデータに対して、複数種類のターゲットスライドウィンドウのウィンドウサイズとターゲットステップサイズでサンプリングしてもよい。
任意選択で、ターゲットシーケンスデータの収集(ターゲットスライドウィンドウのスライディング)、及びターゲットニューラルネットワークモデルを使用してデータを処理することは、順に実行されてもよい。ターゲットスライドウィンドウを1回スライドさせて、一組のデータを取得し、ターゲットニューラルネットワークモデルを使用して、当該組のデータを処理し、ターゲットニューラルネットワークモデルを使用して当該組のデータを処理した後、ターゲットスライドウィンドウのウィンドウサイズとターゲットステップサイズを調整し(調整しなくてもよい)、次の組のデータを取得し、ターゲットニューラルネットワークモデルに当該次の組のデータを処理させ、全てのターゲットシーケンスデータを処理するまで繰り返す。
ターゲットシーケンスデータの最後の組のデータについて、含まれるデータの数は、ターゲットスライドウィンドウのサイズより小さい場合があり、データはターゲットニューラルネットワークモデルに順に入力されて処理されるため、最後の組のデータに含まれるデータの数は、ターゲットニューラルネットワークモデルによるデータへの処理に影響を与えない。
本出願の実施例の上記の技術案によれば、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータでスライドし、複数の組のデータを取得することで、ターゲットシーケンスデータを便利にグループ化して、ターゲットシーケンスデータの処理効率を向上させることができる。
ステップS204では、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、各組のデータにおける各データがターゲットニューラルネットワークモデルに入力される場合、現在の組のデータにおける現在データと見なされる。ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果に従って、現在データを処理する。
複数の組のデータ(複数の組のデータの全体又は部分)を取得した後、取得した複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、ターゲットニューラルネットワークモデルを使用して、各データを処理してもよい。
上記のターゲットニューラルネットワークモデルは、入力した各データを順に処理し、少なくともキャプチャされた1つ前のデータの処理結果に従って、現在データを処理できるという特徴がある。上記のターゲットニューラルネットワークモデルは、ループニューラルネットワークモデル(再帰型ニューラルネットワークモデル)であってもよく、使用するループニューラルネットワークは、RNN、LSTM、高次のRNN、高次のLSTMの少なくとも1つを含み得る。
複数の組のデータのうち第1組のデータについて、第1組のデータにおける現在データをターゲットニューラルネットワークモデルに順に入力し、現在データの1つ前のデータの処理結果(1つ前の処理結果)を使用して、現在データを処理し、現在データの処理結果(現在処理結果)を取得してもよい。現在データが第1組のデータにおける1番目のデータである場合、現在データをターゲットニューラルネットワークモデルに入力して現在データを処理する。
例えば、ターゲットニューラルネットワークモデルがRNN(図3に示す)を含む場合、ターゲットニューラルネットワークモデルを使用して第1組のデータを処理して取得した処理結果は、ターゲットニューラルネットワークモデルに含まれるRNNを使用して第1組のデータを処理して取得した処理結果と同じである。
例えば、ターゲットニューラルネットワークモデルがLSTMを含む場合、ターゲットニューラルネットワークモデルを使用して第1組のデータを処理して取得した処理結果は、LSTM(図4に示す)を使用して第1組のデータを処理して取得した処理結果と同じである。
任意選択で、本実施例では、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力するステップは、一つ前の組のデータ、一つ前の組の処理結果、及び1つ前の処理結果を取得するステップと、現在データをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルから出力する、現在データに対応する現在処理結果を取得するステップとを含み、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、一つ前の組のデータ、一つ前の組の処理結果、及び1つ前の処理結果に従って、現在データを処理する。
本出願の実施例の上記の技術案によれば、一つ前の組のデータ、一つ前の組の処理結果(ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した1組の処理結果)、及び1つ前の処理結果(ターゲットニューラルネットワークモデルを使用して1つ前のデータを処理して取得した処理結果)を取得し、ターゲットニューラルネットワークモデルによって一つ前の組のデータ、一つ前の組の処理結果、及び1つ前の処理結果に従って、現在データを処理し、現在データに対応する処理結果を取得することで、現在データの処理を完成し、ターゲットニューラルネットワークモデルの処理流れを完成する。
複数の組のデータのうち第1組のデータ以外の他の組のデータ(現在の組のデータ)については、まず、現在データの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果(一つ前の組のデータにおける各データと一つ前の組の処理結果の各処理結果との間に1対1の対応関係があり得る)、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果を取得する。
一つ前の組のデータと一つ前の組の処理結果が全体として(例えば、一つ前の組のデータの高次元の特徴情報を抽出する)ターゲットニューラルネットワークモデルに作用することは、まず、ターゲット処理モデルを使用して一つ前の組のデータ及び一つ前の組の処理結果を処理し、ターゲット特徴情報(第1の特徴情報)を取得する。
上記のターゲット特徴情報は、一つ前の組のデータ及び一つ前の組の処理結果に基づいて取得でき、一つ前の組のデータ、一つ前の組の処理結果をターゲット処理モデルにおけるターゲット自己注意モデルに入力し、ターゲット自己注意モデルから出力した、一つ前の組のデータに対応する第2の特徴情報を取得する。第2の特徴情報は、ターゲット特徴情報として出力することができる。
ターゲット特徴情報の生成は、一つ前の組のデータと一つ前の組のデータの処理結果を結びつけることで、複数のデータセグメント間でシーケンスデータの情報を循環させることができる。従って、より長い時間依存関係をキャプチャでき、データセグメント間でグローバルインタラクションをモデリングする。
第2の特徴情報の以外、ターゲット特徴情報は、一つ前の組のデータより前の1つ又は複数の組のデータの処理結果に基づいて、取得することもできる。
任意選択で、本実施例では、現在データをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルから出力した、現在データに対応する現在処理結果を取得するステップは、ターゲット処理モデルから出力される、一つ前の組のデータに対応する第1の特徴情報、及び1つ前の処理結果を取得するステップであって、ターゲット処理モデルは、ターゲット自己注意モデルと第1のゲートを含み、第1の特徴情報は第2の特徴情報と第3の特徴情報を第1のゲートに入力して取得され、第2の特徴情報は一つ前の組のデータと一つ前の組の処理結果をターゲット自己注意モデルに入力して取得され、第3の特徴情報はターゲット処理モデルから出力された、一つ前の組のデータに対応する特徴情報であり、当該特徴情報は一つ前の組のデータ(第i組のデータ)の組内特徴情報であり、第1の特徴情報はターゲット処理モデルから出力された、現在組のデータに対応する特徴情報であり、当該第1の特徴情報は現在組のデータ(第i+1組のデータ)の組内特徴情報であり、第1のゲートは、第2の特徴情報の第1の特徴情報として出力される割合、及び第3の特徴情報の第1の特徴情報として出力される割合を制御するように設置されるステップと、現在データをターゲットニューラルネットワークモデルに入力し、現在処理結果を取得するステップであって、ターゲットニューラルネットワークモデルが現在データを処理するプロセスで、第1の特徴情報と1つ前の処理結果に従って、現在データを処理するステップと、を含む。
第2の特徴情報の以外、ターゲット特徴情報は、ターゲット処理モデルから出力される、一つ前の組のデータに対応する特徴情報に基づいて生成される(第3の特徴情報)。
例えば、図5に示すように、一つ前の組のデータ(第i組のデータ)と一つ前の組の処理結果(第i組のデータへの処理結果)をターゲット処理モデルにおけるターゲット自己注意モデルに入力し、第2の特徴情報を取得し、ターゲット処理モデルを使用して一つ前の組のデータを処理して取得した第3の特徴情報も一緒に第1のゲートに入力し、第1のゲートにより、第1の特徴情報に出力する第2の特徴情報及び第3の特徴情報の部分を制御して(第1のゲートにより、どの情報を保持するか、どの程度保持するか、どの情報を破棄するかを制御する)、第1の特徴情報(ターゲット特徴情報)を取得する。
本出願の実施例の上記の技術案によれば、ターゲット自己注意モデルによって一つ前の組のデータと一つ前の組の処理結果の間の関係、及び一つ前の組の処理結果における各処理結果間の情報マッチング程度をモデリングし、第1のゲートを使用してシーケンスデータセグメント間の情報流れを制御することで、長期的な依存関係モデリングの精度を保証する。
第1の特徴情報を取得した後、取得した第1の特徴情報を、ターゲットニューラルネットワークモデルによる現在の組のデータの各データに対する処理プロセスに順に作用することができる。
任意選択で、本実施例では、現在データをターゲットニューラルネットワークモデルに入力し、現在処理結果を取得するプロセスでは、第1の特徴情報及び現在データを第2のゲートに入力し、ターゲットパラメータを取得し、第2のゲートは、第1の特徴情報のターゲットパラメータとして出力される割合、及び現在データのターゲットパラメータとして出力される割合を制御するように設置され、ターゲットパラメータをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルの出力を制御する。
本出願の実施例の上記の技術案によれば、ターゲットニューラルネットワークに1つのゲート(第2のゲート)を追加し、ターゲット特徴情報を導入して現在の隠れ状態を更新することで、現在時間ステップでも長距離シーケンス情報をうまくキャプチャできる。
ステップS206では、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得する。
ターゲットシーケンスデータにおける各データを処理した後、最後のデータに対する前記ターゲットニューラルネットワークモデルの処理結果を、ターゲットシーケンスデータに対する処理の最終結果として出力することができる。
ターゲットニューラルネットワークモデルから出力されるデータ処理結果を取得した後、データ処理結果を分析し、ターゲットタスクの実行結果を取得してもよい。上記のターゲットタスクは、情報フローの推奨、ビデオ理解、対話システム、感情分析などを含むが、これらに限定されない。
任意選択の実施形態として、ターゲットニューラルネットワークモデルが出力するデータ処理結果(ターゲットシーケンスデータにおけるあるデータの処理結果であってもよく、最後のデータの処理結果を含む)を取得した後、データ処理結果に従って、第1の確率情報(参照アクションセットにおける各参照アクションに対応する複数の確率値があり得る)を決定し、第1の確率情報は、ターゲットオブジェクトによって実行されるアクションがそれぞれ参照アクションセットにおける各参照アクションの確率を示し、第1の確率情報に従って、ターゲットオブジェクトによって実行されるアクションが参照アクションセットにおけるターゲットアクションであると決定する。
以下では、任意選択の例と結合して、上記のデータ処理方法を説明する。図6に示すように、ターゲットシーケンスデータは一区切りのビデオデータであり、当該ビデオデータは、複数のビデオフレームを含む。ターゲットタスクは、ビデオスニペットにおける人物のアクションを認識することであり、この例のビデオに示されているアクションは、「相手に向かって歩く」ことである。
スライドウィンドウサイズに応じて、上記の複数のビデオフレームを、N個ごとに一グループとする(例えば、5又は10個のビデオフレームごとに一グループとする)方式で、複数のビデオフレームグループに分割する。複数のビデオフレームグループのうち各ビデオフレームグループにおける各ビデオフレームを、ターゲットニューラルネットワークモデルに順に入力する。各ビデオフレームグループについて、最後のビデオフレームの処理が完了した後、入力されたビデオフレーム(x)と出力された処理結果(h)に従って第2の特徴情報を取得して、第1の特徴情報を取得する。すべてのビデオフレームの処理が完了した後、最後のビデオフレームの処理結果に従って、ビデオに示すアクションが「相手に向かって歩く」と予測する。
2人の相対距離の経時変化がアクション認識の鍵となるため、ターゲットニューラルネットワークモデルは、2人の相対距離の経時変化をうまくキャプチャできるので、アクションを正しく認識することができる。LSTMなどのモデルの場合、2人の相対距離の経時変化をうまくキャプチャできないため、アクションを正しく認識できず、アクションを「相手を打つ」と誤認識してしまう。
他の任意選択の実施形態として、ターゲットニューラルネットワークモデルが出力するデータ処理結果(ターゲットシーケンスデータにおけるあるデータの処理結果であってもよく、最後のデータの処理結果を含む)を取得した後、データ処理結果に従って、第2の確率情報(参照感情タイプセットにおける各参照感情タイプに対応する複数の確率値があり得る)を決定し、第2の確率情報は、ターゲットテキストデータの表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示し、第2の確率情報に従って、ターゲットテキストデータの表す感情タイプが参照感情タイプセットにおけるターゲット感情タイプであると決定する。
以下では、任意選択の例と結合して、上記のデータ処理方法を説明する。図7に示すように、ターゲットシーケンスデータは一区切りのレビューであり、当該レビューは、複数のセンテンスを含む。ターゲットタスクは、特定レビューにおける感情タイプを認識することである。本例では、レビューの感情タイプは、「ネガティブ」である。
スライドウィンドウサイズに応じて、上記のレビューを、N個のセンテンスごとに一グループとする(例えば、2又は3個のセンテンスごとに一グループとする)方式で、複数のセンテンスグループに分割する。なお、センテンスグループは、実際には単語の組み合わせであり、従って、センテンスグループは一種のフレーズと見なすこともできる。複数のセンテンスグループのうち各センテンスグループにおける各センテンスを、ターゲットニューラルネットワークモデルに順に入力する。各センテンスグループについて、最後のセンテンス処理が完了した後、入力されたセンテンス(x)と出力された処理結果(h)に従って、第2の特徴情報を取得し、第1の特徴情報を取得する。すべてのセンテンス処理が完了した後、最後のセンテンスの処理結果に従って、レビューにおける感情タイプが「ネガティブ」と予測する。
このレビューでは、前のいくつかのセンテンス(「私が…無神経なもの」)は、悪いレビューの傾向を示す重要な手がかりである。最後のタイムステップでの隠れ状態hによって忘れられやすいため、LSTMによってキャプチャされにくい。レビューの最後のいくつかのセンテンス(「注目に値するのは…これはちょっと面白い」)は、良いレビューの傾向を示し、LSTMモデルの認識を誤解させる。従って、LSTMモデルは、レビューの感情タイプが「ポジティブ」であると認識する。
本出願の実施例の上記の技術案によれば、異なるタイプのターゲットタスクに対してターゲットタスクの実行結果を決定することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させる。
この実施例によって、ターゲットシーケンスデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、ターゲットニューラルネットワークモデルによって、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果に従って、現在データを処理し、ターゲットニューラルネットワークモデルが出力したデータ処理結果を取得することで、関連技術のシーケンスモデルが長期的な依存関係をモデリングできない問題を解決し、長期的な依存関係のキャプチャを実現して、長期的な依存関係のモデリングを実現する。
なお、図6は最後のフレームビデオフレームへの処理結果であり、図7は最後のセンテンスへの処理結果を例として説明する。実際の適用では、サーバー106は、他のビデオフレーム又は他のセンテンスへの処理結果に基づいて、上記のタスクを実行してもよい。
次に、任意選択の例と結合して、上記のデータ処理方法を説明する。現在のシーケンスモデリングアルゴリズムが長距離時間依存関係を処理できない欠点を考慮して、この例のデータ処理方法で使用するターゲットニューラルネットワークモデルは、ローカル循環メモリに基づくLSTMモデルであり得る。
ターゲットニューラルネットワークモデルは、シーケンスデータセグメントのフルオーダーモデリング、及びシーケンスデータセグメント間のグローバルインタラクションのモデリングを実行することができる。図8に示すように、ターゲットニューラルネットワークモデルは、主に、非ローカル循環メモリユニット(Memory)とシーケンスモデル(シーケンスモデリング)の2つの部分を含む。
(1)非ローカル循環メモリユニット(Memory)
非ローカル循環メモリユニットは、各シーケンスデータセグメント(メモリブロック)の異なるタイムステップでのターゲットニューラルネットワークモデル(例えば、LSTM)の隠れ状態間の高次の相互作用を学習できる。同時に、ゲートループの方式でメモリブロック間のグローバルインタラクションをモデリングする。各メモリブロックで学習されたメモリ状態は、将来のタイムステップに作用され、ターゲットニューラルネットワークモデル(例えば、LSTM)の隠れ状態を調整して、より優れた特徴表現を取得する。
非ローカル循環メモリユニットは、シーケンスデータセグメントのフルオーダーのインタラクションを処理でき、データセグメント内の高次元の特徴(例えば、Mt-win、M、Mt+win)を抽出し、データセグメント間のメモリフロー(例えば、Mt-win→M→Mt+win、Mt-win→C,Ct-1など)を実現する。
図8に示すMt-win、M、Mt+winは、異なる入力データグループの非ローカル循環メモリユニットに対応する。図8に示すように、一つ前の組のデータに対応するメモリユニットに対して、一つ後の組のデータにおける各データの処理プロセスに作用することができる。
シーケンスデータセグメント(データグループ、図8に示すブロックサイズ)の場合、入力データxとLSTMモデルの出力hを考慮すると、非ローカル循環メモリユニットは、自注意力メカニズム(図9に示すように)を使用して、入力xとLSTM出力hの間の関係、及び各hとhの間の情報マッチング程度を暗黙的にモデリングして、現在の高次元の特徴
Figure 0007292657000001
を取得し、同時にメモリゲートを使用してシーケンスデータセグメント間の情報の流れを制御する。
非ローカル循環メモリユニットの構造は、図9に示す。非ローカル循環メモリユニットは、自己注意モデルとメモリゲートの2つの部分に分けて、自己注意モデル(Attention Module、注意力モジュールとも称し、その作用は前述のターゲット自己注意モデルと同じである)は、入力情報間の関係をモデリングし特徴を抽出して、メモリゲート(Memory Gate、作用が前述の第1のゲートと同じである)は、情報の冗長性と過剰適合を回避するために、異なるタイムステップで情報の流れを制御する。
図9に示すように、非ローカル循環メモリユニットが現在の組のデータ(現在データセグメント、xt-s…x…xt+s)に対応するMを取得する手順は、次の通りである。
まず、一つ前の組のデータ(入力、inputs、xt-s…x…xt+s)と一つ前の組の処理結果(出力、隠れ状態、hiddens、ht-s…h…ht+s)を自己注意モデルに入力し、
Figure 0007292657000002
を取得する。
自己注意モデルの場合、inputs(各inputは、1つの特徴ベクトルとして表す)と、hiddens(各hiddenは、1つの特徴ベクトルとして表す)を取得した後、この2つを接続(Concat)して、第1の接続データ(AttentionMask、注意力行列は、特徴ベクトル行列として表す)を取得する。
第1の接続データに対して自注意力処理を行い、特徴ベクトルの重要度に応じて、第1の接続データ(AttentionMask)を処理して、特徴ベクトル間の関連付けを行う。予め定義された3つのパラメータ行列W、W及びWを使用して、AttentionMaskを処理し、Mattを取得し、Mattは視覚化メモリブロックの注意力重み行列である。
attを取得した後、MattとAttentionMaskを加算して正規化し(Add&Norm)、第2の接続データを取得し、第2の接続データに対して全接続処理(fully Connected)を実行して、第3の接続データを取得し、第2の接続データと第3の接続データを加算して正規化し(Add&Norm)、
Figure 0007292657000003
を取得する。
そして、
Figure 0007292657000004
に従って、Mを取得する。
任意選択の実施形態として、
Figure 0007292657000005
を取得した後、
Figure 0007292657000006
をMとして出力する。
従来技術のシーケンスモデルは、隣接するタイムステップを処理して、長距離のタイムスパンモデリングをできない。この例の上記の技術案によれば、ターゲットニューラルネットワークモデルは、高次の情報をモデリングでき、シーケンスデータセグメントのすべてのタイムステップ間のインタラクションに対してフルオーダーモデリングを行い、データセグメント間に対してグローバルインタラクションのモデリングを行うことができる。従って、ターゲットニューラルネットワークモデルは、より長い時間依存関係をキャプチャできる。
他の任意選択の実施形態として、
Figure 0007292657000007
を取得した後、Mt-win
Figure 0007292657000008
をメモリゲート(作用は前述の第1のゲートと同じである)に入力し、メモリゲートの出力をMとする。メモリゲートは、シーケンスデータセグメント間の情報循環を制御する。
この例の上記の技術案によれば、ターゲットニューラルネットワークモデルは、隣接していないタイムステップサイズ間の高次のインタラクションに含まれる潜在的な高次元の特徴を学習でき、高次元の特徴の抽出を強化できる。
(2)シーケンスモデル(シーケンスモデリング)
非ローカル循環メモリユニットをLSTMなどの現在のシーケンスデータ処理モデルに埋め込んで、現在のシーケンスデータ処理モデルの長いシーケンスデータモデリング能力を改善する。
非ローカル循環メモリユニット(非ローカルメモリユニットとも称する)は、既存の再帰構造のシーケンスモデル、例えば、RNN/GRU/LSTMなどにシームレスに集積でき(図8に示すように、図8は非ローカルメモリユニットをLSTMモデルに埋め込み得られたターゲットニューラルネットワークモデルを示す)、既存のシーケンスモデル(例えば、ビデオ理解、対話システムなど)におけるシーケンスモデリング能力を強化し、集積したモデルに対してエンドツーエンドでトレーニングでき、非ローカル循環メモリユニットは、良好な移動能力を有することができる。
例えば、非ローカル循環メモリユニットは、現在のビジネスラインモデル(例えば、LSTM)にシームレスに埋め込むことができ、二次開発のコストを最小限に抑える。図10に示すように、LSTMを例として、LSTMのcellユニットを修正することにより、LSTMモデルに1つのゲートg(作用は前述の第2のゲートと同じである)を直接追加し、Mt-winを導入して現在の隠れ状態を更新することで、現在のタイムステップでも長距離のシーケンス情報をうまくキャプチャできる。
情報を更新するたびに、前のシーケンスデータセグメントの情報Mt-winを参照して、シーケンスデータセグメント間で情報の循環を保証でき、即ち、長距離シーケンスの関係をキャプチャでき、モデルのパフォーマンスが効果的に向上する。また、現在のモデルに便利に埋め込むことができ、開発コストを最小限に抑える。
また、過剰適合と情報の冗長性を回避するために、ターゲットニューラルネットワークモデルは、異なるステップサイズ(stride)で情報をサンプリングすることをサポートし、同時に動的(sliding window、スライディングウィンドウ)の特徴の更新をサポートする。
この例の上記の技術案によれば、非ローカル循環メモリネットワークにより、シーケンスモデルは、1つのシーケンスデータセグメントで非ローカル動作の方式でフルオーダーインタラクションをモデリングし、シーケンスデータセグメント間でゲート方式で情報を更新して、グローバルインタラクションをモデリングすることで、長期的な依存関係をキャプチャでき、高次のインタラクションに含まれる潜在的な高次元の特徴を抽出することもできる。
前記の方法実施例について、簡単に説明するために、一連の動作の組み合わせとして記述する。但し、当業者は、本出願によれば、特定のステップが他の順序又は同時に実行されてもよく、本出願が記述した動作順序によって制限されないことを理解すべきである。また、当業者は、明細書に記述した実施例がいずれも好ましい実施例に属し、係る動作及びモジュールが本出願に必ずしも必要ではないことを理解すべきである。
本出願の実施例の他の態様によれば、上記のデータ処理方法を実施するための仮想シーンにおけるデータ処理装置を提供し、図11に示すように、当該装置は、
(1)ターゲットシーケンスデータを取得するための通信モジュール1102であって、前記ターゲットシーケンスデータは、時系列にソートされたN組のデータを含み、前記Nが1より大きい通信モジュール1102と、
(2)前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルの前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおける前記j+1番目のデータの処理結果を取得するための処理モジュール1104であって、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数である処理モジュール1104を含む。
任意選択で、上記のデータ処理装置は、ターゲットニューラルネットワークを使用してターゲットタスクを実行するプロセスに適用することができるが、これに限定されない。上記のターゲットタスクは、ターゲットシーケンスデータの時系列の情報に従って、ターゲットタスクの実行結果を決定できる。例えば、上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析(例えば、感情分類)、対話システムなどであり得る。
任意選択で、通信モジュール1102は、上記のステップS202を実行でき、処理モジュール1104は、上記のステップS204とステップS206を実行できる。
本実施例によって、ターゲットニューラルネットワークモデルが現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの1つ前のデータを処理して取得した1つ前の処理結果に従って、現在データを処理することで、関連技術のシーケンスモデルが長期的な依存関係をモデリングできない問題を解決し、長期的な依存関係のキャプチャを実現して、長期的な依存関係のモデリングを実現し、モデリングの精度を向上させ、当該方法で得られたモデルは、視覚処理、テキスト分析、及び対話システムなどのシーンに幅広く使用できる。
任意選択の実施形態として、処理モジュール1104は、
(1)ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記N組のデータのうち第i組のデータ及び前記ターゲットニューラルネットワークモデルの前記第i組のデータへの処理結果を処理し、第2の特徴情報を取得するための第1の処理ユニットと、
(2)ターゲット処理モデルにおける第1のゲートを使用して、前記第2の特徴情報及び第3の特徴情報を処理し、第1の特徴情報を取得するための第2の処理ユニットであって、前記第1の特徴情報は、前記第i+1組のデータの組内特徴情報であり、前記第3の特徴情報は、前記第i組のデータの組内特徴情報であり、前記第1のゲートは、前記第2の特徴情報の前記第1の特徴情報として出力される割合、及び前記第3の特徴情報の前記第1の特徴情報として出力される割合を制御する第2の処理ユニットと、
(3)前記第1の特徴情報と、前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第i+1組のデータにおけるj+1番目のデータを処理するための第3の処理ユニットとを含む。
本実施例によって、ターゲット自己注意モデルが一つ前の組のデータと一つ前の組の処理結果間の関係、及び一つ前の組の処理結果における各処理結果間の情報マッチング程度をモデリングし、第1のゲートを使用してシーケンスデータセグメント間の情報流れを制御することで、長期的な依存関係モデリングの精度を保証できる。
任意選択の実施形態として、第3の処理ユニットは、具体的に、
第2のゲートを使用して、前記第1の特徴情報と前記第i+1組のデータにおけるj+1番目のデータを処理し、ターゲットパラメータを取得し、前記第2のゲートは、前記第1の特徴情報の前記ターゲットパラメータとして出力される割合及び前記j+1番目のデータの前記ターゲットパラメータとして出力される割合を制御し、
前記ターゲットニューラルネットワークモデルを使用して、前記ターゲットパラメータを処理する。
本実施例によって、ターゲットニューラルネットワークに1つのゲート(第2のゲート)を追加し、第1の特徴情報を導入して現在の隠れ状態を更新することで、現在のタイムステップでも長距離のシーケンス情報をうまくキャプチャできる。
任意選択の実施形態として、上記の装置は、
ターゲットシーケンスデータを取得した後、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、N組のデータを取得するためのスライドモジュールをさらに含む。
本実施例によって、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、複数の組のデータを取得することで、ターゲットシーケンスデータを便利にグループ化して、ターゲットシーケンスデータの処理効率を向上させることができる。
任意選択の実施形態として、通信モジュール1102は、具体的に、
ターゲットビデオデータを取得し、前記ターゲットビデオデータは、時系列にソートされたN組のビデオフレームグループを含み、前記ターゲットビデオデータは、前記ターゲットビデオデータ内のターゲットオブジェクトにより実行されるアクションを認識するためのものであり、
上記の装置は、第1の決定モジュールをさらに含み、
第1の決定モジュールは、前記N組のビデオフレームグループにおける少なくとも1つのビデオフレームグループの少なくとも一つのフレームビデオフレームへの処理結果に従って、第1の確率情報を決定し、第1の確率情報はターゲットオブジェクトにより実行されるアクションがそれぞれ参照アクションセットにおける各参照アクションである確率を示し、第1の確率情報に従って、ターゲットオブジェクトにより実行されるアクションが参照アクションセットにおけるターゲットアクションでありと決定する。
任意選択の実施形態として、通信モジュール1102は、具体的に、
ターゲットテキストデータを取得し、前記ターゲットテキストデータは、少なくとも1つのセンテンスを含み、前記少なくとも1つのセンテンスは、前後順序を有するN個のフレーズを含み、前記ターゲットテキストデータは、前記ターゲットテキストデータが表す感情タイプを認識するためのものであり、
上記の装置は、第2の決定モジュールをさらに含み、
第2の決定モジュールは、前記N個のフレーズのうち少なくとも1つのフレーズにおける少なくとも1つの単語の処理結果に従って、第2の確率情報を決定し、第2の確率情報は、ターゲットテキストデータの表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示し、第2の確率情報に従って、ターゲットテキストデータの表す感情タイプが参照感情タイプセットにおけるターゲット感情タイプであると決定する。
本実施例によって、異なるタイプのターゲットタスクに対して異なるターゲットシーケンスデータを取得し、異なるタイプのターゲットタスクに対してターゲットタスクの実行結果を決定することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させることができる。
本出願の実施例のさらに他の態様によれば、記憶媒体を提供し、当該記憶媒体にコンピュータプログラムが記憶され、当該コンピュータプログラムは、実行される場合、上記のいずれか一項に記載の方法実施例におけるステップを実行するように設置される。
任意選択で、本実施例では、上記の記憶媒体は、次のステップを実行するためのコンピュータプログラムを記憶するように設置される。
S1、ターゲットシーケンスデータを取得し、前記ターゲットシーケンスデータは、時系列でソートされたN組のデータを含み、前記Nが1より大きい。
S2、前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルの前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得し、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数である。
任意選択で、本実施例では、当業者は、上記の実施例の各方法におけるステップの全て又は一部が、プログラムを通じて端末デバイスの関連するハードウェアに指示することによって完成できることを理解できる。当該プログラムは、コンピュータ可読記憶媒体に記憶することができる。記憶媒体は、フラッシュメモリディスク、読み取り専用メモリ(Read-Only Memory,ROM)、ランダムアクセスメモリ(Random Access Memory,RAM)、磁気ディスク又は光ディスクなどを含んでもよい。
本出願の実施例のさらに他の態様によれば、上記のデータ処理方法を実施するための電子装置を提供し、図12に示すように、当該電子装置は、プロセッサー1202、メモリ1204、伝送装置1206などを含む。当該メモリにコンピュータプログラムが記憶され、当該プロセッサーは、コンピュータプログラムによって上記のいずれか一項の方法実施例におけるステップを実行するように設置される。
任意選択で、本実施例では、上記の電子装置は、コンピュータネットワークの複数のネットワークデバイスのうちの少なくとも1つのネットワークデバイスに位置してもよい。
任意選択で、本実施例では、上記の伝送装置1206は、ターゲットシーケンスデータを取得し、前記ターゲットシーケンスデータは、時系列でソートされたN組のデータを含み、前記Nが1より大きい。
上記のプロセッサーは、コンピュータプログラムによって、次のステップを実行するように設置される。
前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルの前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得し、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数である。
任意選択で、当業者は、図12に示す構成が例示に過ぎず、電子装置がスマートフォン(例えば、Androidフォン、iOSフォンなど)、タブレットコンピュータ、パームトップコンピュータ、及びモバイルインターネットデバイス(Mobile Internet Devices,MID)、PADなどの端末デバイスであってもよいことを理解すべきである。図12は、上記の電子装置の構造を制限するものではない。例えば、電子装置は、図12に示すよりも多いまたは少ないコンポーネント(例えば、ネットワークインターフェースなど)を含み得るか、または図12に示すものとは異なる配置を有し得る。
メモリ1204は、ソフトウェアプログラム及びモジュール、例えば、本出願の実施例におけるデータ処理方法及び装置に対応するプログラム指令/モジュールを記憶する。プロセッサー1202は、メモリ1204に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各機能アプリケーション及びデータ処理を実行し、即ち、上記のデータ処理方法を実現する。メモリ1204は、高速ランダムメモリを含み得、1つ又は複数の磁気記憶装置、フラッシュメモリ、又は他の不揮発性固体メモリなどの不揮発性メモリを含み得る。特定の例では、メモリ1204は、プロセッサー1202に対して遠隔的に設置されるメモリをさらに含み得、これらのリモートメモリは、ネットワークを介して端末に接続され得る。上記のネットワーク例は、インターネット、企業イントラネット、ローカルネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
上記の伝送装置1206は、1つのネットワークを介してデータを送受信する。上記のネットワークの具体例は、有線ネットワークおよび無線ネットワークを含む。一例では、伝送装置1206は、1つのネットワークアダプタ(Network Interface Controller、NIC)を含む。このネットワークアダプタは、ネットワークケーブルを介して他のネットワークデバイスやルーターに接続でき、インターネット又はローカルネットワークと通信できる。一例では、伝送装置1206は、無線周波数(Radio Frequency,RF)モジュールであり、無線方式でインターネットと通信する。
上記の本出願の実施例の番号は、説明のためのものであり、実施例の利点および欠点を表すものではない。
上記の実施例における集積ユニットがソフトウェア機能ユニットの形で実現され、独立した製品として販売又は使用される場合、上記のコンピュータ可読記憶媒体に記憶できる。このような理解に基づいて、本出願の技術案は、本質的に、または既存の技術に寄与する部分、又は当該技術案の全て又は一部は、ソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品は、記憶媒体に記憶し、1つ又は複数のコンピュータデバイス(パーソナルコンピュータ、サーバー又はネットワークデバイスなど)に本出願の各実施例に記載される方法のステップの全て又は一部を実行させるための若干の指令を含む。
本出願の上記の実施例では、各実施例についての説明は、それぞれ独自の焦点を持っている。ある実施例で詳細に説明していない部分については、他の実施例の関連説明を参照することができる。
本出願に提供されるいくつかの実施例では、開示のクライアントは、他の方式でも実現できる。以上の装置の実施例は、例示に過ぎない。例えば、前記ユニットの分割は、論理機能分割に過ぎず、実際に実現する場合、他の分割方式もある。例えば、複数のユニット又はコンポーネントを結合したり、別のシステムに集積したり、一部の機能を無視したり、実行しなかったりすることができる。また、記載又は議論された相互結合または直接結合または通信接続は、特定のインターフェース、ユニットまたはモジュールを介する間接結合または通信接続であり得て、電気または他の形態であり得る。
前記の個別部品として説明したユニットは、物理的に分離されても分離されなくてもよく、ユニットとして表示した部品は、物理ユニットであってもそうでなくてもよく、即ち、1つの場所に配置してもよく、複数のネットワークユニットに分散してもよい。実際のニーズに応じて、ユニットのいくつかまたはすべてを選択して、本実施例の目的を実現することができる。
また、本出願の各実施例における各機能ユニットは、1つの処理ユニットに集積されてもよく、各ユニットが物理的に単独で存在してもよく、2つ以上のユニットが1つのユニットに集積されてもよい。上記の集積ユニットは、ハードウェアの形で実現されてもよく、ソフトウェア機能ユニットの形で実現されてもよい。
以上は、本出願の好ましい実施形態に過ぎない。なお、当業者にとって、本出願の原理から逸脱することなく、若干の改善および修正を行うことができ、これらの改善および修正も本出願の保護範囲と見なす。
102 端末デバイス
104 ネットワーク
106 サーバー
1102 通信モジュール
1104 処理モジュール
1202 プロセッサー
1204 メモリ
1206 伝送装置

Claims (8)

  1. サーバーによって実行されるデータ処理方法であって、
    ターゲットシーケンスデータを取得するステップであって、前記ターゲットシーケンスデータは、時系列でソートされたN組のデータを含み、前記Nが1より大きいステップと、
    前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得するステップであって、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数であり、
    ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記N組のデータのうち第i組のデータ及び前記ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果を処理し、第2の特徴情報を取得するステップと、
    前記ターゲット処理モデルにおける第1のゲートを使用して、前記第2の特徴情報及び第3の特徴情報を処理し、第1の特徴情報を取得するステップであって、前記第1の特徴情報は、前記第i+1組のデータの組内特徴情報であり、前記第3の特徴情報は、前記第i組のデータの組内特徴情報であり、前記第1のゲートは、前記第2の特徴情報の前記第1の特徴情報として出力される割合、及び前記第3の特徴情報の前記第1の特徴情報として出力される割合を制御するステップと、
    前記第1の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理するステップと
    を含むステップと、
    を含む方法。
  2. 前記第1の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理する前記ステップは、
    第2のゲートを使用して、前記第1の特徴情報及び前記第i+1組のデータにおけるj+1番目のデータを処理し、ターゲットパラメータを取得するステップであって、前記第2のゲートは、前記第1の特徴情報の前記ターゲットパラメータとして出力される割合及び前記j+1番目のデータの前記ターゲットパラメータとして出力される割合を制御するステップと、
    前記ターゲットニューラルネットワークモデルを使用して、前記ターゲットパラメータを処理するステップと、
    を含む請求項に記載の方法。
  3. 前記ターゲットシーケンスデータを取得した後、前記方法は、
    ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて前記ターゲットシーケンスデータでスライドし、前記N組のデータを取得するステップをさらに含む請求項1または2に記載の方法。
  4. ターゲットシーケンスデータを取得する前記ステップは、
    ターゲットビデオデータを取得するステップであって、前記ターゲットビデオデータは、時系列にソートされたN組のビデオフレームグループを含み、前記ターゲットビデオデータは、前記ターゲットビデオデータ内のターゲットオブジェクトにより実行されるアクションを認識するためのものであるステップを含み、
    前記方法は、
    前記N組のビデオフレームグループにおける少なくとも1つのビデオフレームグループの少なくとも一フレームのビデオフレームへの処理結果に従って、第1の確率情報を決定するステップであって、前記第1の確率情報は、前記ターゲットオブジェクトによって実行されるアクションがそれぞれ参照アクションセットのうち各参照アクションである確率を示すステップと、
    前記第1の確率情報に従って、前記ターゲットオブジェクトによって実行されるアクションが前記参照アクションセットのうちターゲットアクションであると決定するステップと、
    をさらに含む請求項1~のいずれか一項に記載の方法。
  5. ターゲットシーケンスデータを取得する前記ステップは、
    ターゲットテキストデータを取得するステップであって、前記ターゲットテキストデータは、少なくとも1つのセンテンスを含み、前記少なくとも1つのセンテンスは、前後順序を有するN個のフレーズを含み、前記ターゲットテキストデータは、前記ターゲットテキストデータが表す感情タイプを認識するためのものであるステップを含み、
    前記方法は、
    前記N個のフレーズのうち少なくとも1つのフレーズにおける少なくとも1つの単語の処理結果に従って、第2の確率情報を決定するステップであって、前記第2の確率情報は、前記ターゲットテキストデータが表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示すステップと、
    前記第2の確率情報に従って、前記ターゲットテキストデータが表す感情タイプが前記参照感情タイプセットにおけるターゲット感情タイプであると決定するステップと、
    をさらに含む請求項1~のいずれか一項に記載の方法。
  6. データ処理装置であって、
    時系列でソートされたN組のデータを含むターゲットシーケンスデータを取得するための通信モジュールであって、前記Nが1より大きい通信モジュールと、
    前記N組のデータのうち第i組のデータ、ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第i+1組のデータにおけるj+1番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおける前記j+1番目のデータへの処理結果を取得するための処理モジュールであって、前記iは1以上N未満であり、前記jは1以上Q未満であり、前記Qは前記第i+1組のデータにおけるデータの数であり、
    ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記N組のデータのうち第i組のデータ及び前記ターゲットニューラルネットワークモデルによる前記第i組のデータへの処理結果を処理し、第2の特徴情報を取得し、
    前記ターゲット処理モデルにおける第1のゲートを使用して、前記第2の特徴情報及び第3の特徴情報を処理し、第1の特徴情報を取得し、前記第1の特徴情報は、前記第i+1組のデータの組内特徴情報であり、前記第3の特徴情報は、前記第i組のデータの組内特徴情報であり、前記第1のゲートは、前記第2の特徴情報の前記第1の特徴情報として出力される割合、及び前記第3の特徴情報の前記第1の特徴情報として出力される割合を制御し、
    前記第1の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第i+1組のデータにおけるj番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第i+1組のデータにおけるj+1番目のデータを処理する処理モジュールと、
    を含む装置。
  7. 電子装置であって、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記プロセッサーは、前記コンピュータプログラムによって請求項1~のいずれか一項に記載の方法を実行するように設置される電子装置。
  8. 指令を含むコンピュータプログラムであって、
    前記コンピュータプログラムがコンピュータで実行される場合、前記コンピュータに、請求項1~のいずれか一項に記載のデータ処理方法を実行させるコンピュータプログラム。
JP2021541499A 2019-05-31 2020-03-20 データ処理方法、データ処理装置、コンピュータプログラム及び電子装置 Active JP7292657B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910472128.0A CN110263916B (zh) 2019-05-31 2019-05-31 数据处理方法和装置、存储介质及电子装置
CN201910472128.0 2019-05-31
PCT/CN2020/080301 WO2020238353A1 (zh) 2019-05-31 2020-03-20 数据处理方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
JP2022520000A JP2022520000A (ja) 2022-03-28
JP7292657B2 true JP7292657B2 (ja) 2023-06-19

Family

ID=67916330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541499A Active JP7292657B2 (ja) 2019-05-31 2020-03-20 データ処理方法、データ処理装置、コンピュータプログラム及び電子装置

Country Status (5)

Country Link
US (1) US20210390370A1 (ja)
EP (1) EP3979098A4 (ja)
JP (1) JP7292657B2 (ja)
CN (1) CN110263916B (ja)
WO (1) WO2020238353A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN111160484B (zh) * 2019-12-31 2023-08-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读存储介质及电子设备
GB202003088D0 (en) * 2020-03-04 2020-04-15 Samsung Electronics Co Ltd Method and system for action recognition
CN111639548A (zh) * 2020-05-11 2020-09-08 华南理工大学 一种基于门的视频上下文多模态感知特征优化方法
CN111898698B (zh) * 2020-08-10 2021-07-27 腾讯科技(深圳)有限公司 对象的处理方法及装置、存储介质和电子设备
CN112948709B (zh) * 2021-03-05 2022-03-25 桂林电子科技大学 一种影响力感知驱动的连续兴趣点实时推荐方法
CN115119044B (zh) * 2021-03-18 2024-01-05 阿里巴巴新加坡控股有限公司 视频处理方法、设备、***及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182260A (zh) 2018-01-03 2018-06-19 华南理工大学 一种基于语义选择的多变量时间序列分类方法
WO2019055957A1 (en) 2017-09-18 2019-03-21 CS Disco, Inc. ASYNCHRONOUS AND INTERACTIVE AUTOMATIC LEARNING USING ATTENTION SELECTION TECHNIQUES FOR DATA CLASSIFICATION

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10296793B2 (en) * 2016-04-06 2019-05-21 Nec Corporation Deep 3D attention long short-term memory for video-based action recognition
US11080595B2 (en) * 2016-11-04 2021-08-03 Salesforce.Com, Inc. Quasi-recurrent neural network based encoder-decoder model
CN107067413B (zh) * 2016-12-27 2019-11-15 南京理工大学 一种时空域统计匹配局部特征的运动目标检测方法
CN107273800B (zh) * 2017-05-17 2020-08-14 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107609460B (zh) * 2017-05-24 2021-02-02 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
CN107766447B (zh) * 2017-09-25 2021-01-12 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法
CN107944409B (zh) * 2017-11-30 2020-05-08 清华大学 能够区分关键动作的视频分析方法及装置
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109101896B (zh) * 2018-07-19 2022-03-25 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109389055B (zh) * 2018-09-21 2021-07-20 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109409504A (zh) * 2018-10-10 2019-03-01 深圳乐信软件技术有限公司 一种数据处理方法、装置、计算机及存储介质
CN109508644B (zh) * 2018-10-19 2022-10-21 陕西大智慧医疗科技股份有限公司 基于深度视频数据分析的面瘫等级评估***
CN109635079A (zh) * 2018-10-25 2019-04-16 北京中关村科金技术有限公司 一种用户意图的确定方法、装置、计算机设备和存储介质
CN111461296B (zh) * 2018-12-29 2023-09-22 中科寒武纪科技股份有限公司 数据处理方法、电子设备和可读存储介质
CN109815903B (zh) * 2019-01-24 2020-10-02 同济大学 一种基于自适应融合网络的视频情感分类方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019055957A1 (en) 2017-09-18 2019-03-21 CS Disco, Inc. ASYNCHRONOUS AND INTERACTIVE AUTOMATIC LEARNING USING ATTENTION SELECTION TECHNIQUES FOR DATA CLASSIFICATION
CN108182260A (zh) 2018-01-03 2018-06-19 华南理工大学 一种基于语义选择的多变量时间序列分类方法

Also Published As

Publication number Publication date
US20210390370A1 (en) 2021-12-16
JP2022520000A (ja) 2022-03-28
CN110263916B (zh) 2021-09-10
EP3979098A1 (en) 2022-04-06
EP3979098A4 (en) 2022-06-29
WO2020238353A1 (zh) 2020-12-03
CN110263916A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
JP7292657B2 (ja) データ処理方法、データ処理装置、コンピュータプログラム及び電子装置
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN111368993B (zh) 一种数据处理方法及相关设备
US12008810B2 (en) Video sequence selection method, computer device, and storage medium
CN112288075B (zh) 一种数据处理方法及相关设备
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
WO2019196534A1 (zh) 验证码的人机识别方法及装置
CN111160191B (zh) 一种视频关键帧提取方法、装置及存储介质
CN108595601A (zh) 一种融入Attention机制的长文本情感分析方法
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
Santhalingam et al. Sign language recognition analysis using multimodal data
CN111582342A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN115512005A (zh) 一种数据处理方法及其装置
CN112529149B (zh) 一种数据处理方法及相关装置
US20210232855A1 (en) Movement state recognition model training device, movement state recognition device, methods and programs therefor
CN113505193A (zh) 一种数据处理方法及相关设备
EP4361843A1 (en) Neural network searching method and related device
CN110083842B (zh) 译文质量检测方法、装置、机器翻译***和存储介质
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
Mahalakshmi et al. Few-shot learning-based human behavior recognition model
Li et al. [Retracted] Human Motion Representation and Motion Pattern Recognition Based on Complex Fuzzy Theory
Mills et al. Faster Federated Learning With Decaying Number of Local SGD Steps
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Goyal et al. Internet of things information analysis using fusion based learning with deep Neural Network
Nikolov et al. Skeleton-based human activity recognition by spatio-temporal representation and convolutional neural networks with application to cyber physical systems with human in the loop

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7292657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150