JP7292657B2

JP7292657B2 - データ処理方法、データ処理装置、コンピュータプログラム及び電子装置

Info

Publication number: JP7292657B2
Application number: JP2021541499A
Authority: JP
Inventors: ▲燦▼苗付; ▲瓊▼ 曹; 文杰裴; 小勇沈; 宇▲榮▼ 戴; 佳▲亞▼ ▲賈▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-31
Filing date: 2020-03-20
Publication date: 2023-06-19
Anticipated expiration: 2040-03-20
Also published as: US20210390370A1; JP2022520000A; CN110263916B; EP3979098A1; EP3979098A4; WO2020238353A1; CN110263916A

Description

本出願は、２０１９年０５月３１日に中国専利局に提出した、出願番号が２０１９１０４７２１２８．０であって、発明の名称が「データ処理方法、装置、記憶媒体及び電子装置」である中国特許出願の優先権を主張し、本願で、その全ての内容を援用するものとする。

本出願は、コンピュータ分野に関し、具体的に、データ処理方法、装置、記憶媒体及び電子装置に関する。

現在、シーケンスデータモデリングは、視覚処理（例えば、ビデオ理解の分類、異常な動きの検出）、テキスト分析（例えば、感情分類）、対話システムなどに適用される。

シーケンスモデリングに使用される方法として、グラフィカルモデルがあり、グラフィカルモデルは、生成モデル（生成式グラフィカルモデル）及び判別モデル（判別式グラフィカルモデル）の２つのカテゴリに分けることができる。生成モデルの一例として、隠れマルコフモデルは、チェーンにおけるシーケンスデータに対して潜在的な特定特徴をモデリングできる。判別モデルは、入力データに従ってすべてのカテゴリラベルの分布をモデリングし、判別モデルの一例は、条件付きランダムフィールドである。

シーケンスモデルは、ループニューラルネットワークに基づいて、時系列における情報を抽出し、例えば、ＲＮＮ／ＬＳＴＭ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ／ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ループニューラルネットワーク／長短期記憶ネットワーク）に基づいてシーケンスモデリングすることであってもよく、多くのタスクで優れた性能を発揮する。グラフィカルモデルと比較して、再帰型ニューラルネットワークは最適化が容易であり、時間モデリング機能が優れる。

しかしながら、現在のシーケンスモデルモデリングの精度は低く、視覚処理、テキスト分析、及び対話システムなどのシナリオで幅広く利用することは困難である。

本出願の実施例は、データ処理方法、装置、記憶媒体及び電子装置を提供し、少なくとも、関連技術のシーケンスモデルモデリングの精度が低く、幅広く使用しにくいという技術問題を解決するようになる。

本出願の実施例の１つの態様によれば、データ処理方法を提供し、ターゲットシーケンスデータを取得するステップであって、ターゲットシーケンスデータは、時系列でソートされたＮ組のデータを含み、前記Ｎが１より大きいステップと、前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得するステップであって、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数であるステップと、を含む。

本出願の実施例の他の態様によれば、データ処理装置をさらに提供し、時系列でソートされたＮ組のデータを含むターゲットシーケンスデータを取得するための通信モジュールであって、前記Ｎが１より大きい通信モジュールと、前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得するための処理モジュールであって、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数である処理モジュールと、を含む。

本出願の実施例のさらに他の態様によれば、記憶媒体をさらに提供し、当該記憶媒体にコンピュータプログラムが記憶され、当該コンピュータプログラムは、実行される場合、上記の方法を実行するように設置される。

本出願の実施例のさらに他の態様によれば、電子装置をさらに提供し、メモリ、プロセッサー、及びメモリに記憶されプロセッサーで実行されるコンピュータプログラムを含み、さらに、上記のプロセッサーはコンピュータプログラムによって上記の方法を実行する。

本出願の実施例のさらに他の態様によれば、コンピュータプログラムをさらに提供し、当該コンピュータプログラムがコンピュータで実行される場合、前記コンピュータに上記のデータ処理方法を実行させる。

本出願の実施例では、ターゲットシーケンスデータに含まれるＮ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルによる第ｉ組のデータへの処理結果，及びターゲットニューラルネットワークモデルによる第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、ターゲットニューラルネットワークモデルを使用して、第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、ターゲットニューラルネットワークモデル（例えば，ＬＳＴＭモデル）は、入力された現在データ（即ち、第ｉ＋１組のデータにおけるｊ＋１番目のデータ）を処理する場合、隣接するタイムを取得するステップの情報（１つ前の処理結果、即ち、第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果）だけでなく、現在の組のデータの１つ前の組のデータ（即ち、第ｉ組のデータ）、及び一つ前の組のデータへの処理結果（一つ前の処理結果、即ち、第ｉ組のデータへの処理結果）に基づいて、長期的な依存関係をキャプチャでき、長期的な依存関係をモデリングすることで、関連技術のシーケンスモデルで長期的な依存関係をモデリングできないため、モデリングの精度が低いという問題を解決できる。上記の方法により得られたモデルは、視覚処理、テキスト分析、及び対話システムなどのシーンに幅広く使用できる。
ここで説明する図面は、本出願のさらなる理解を提供し、本出願の一部を構成する。本出願の例示的な実施例及び説明は、本出願を説明するためのもので、本出願の不適切な制限を構成するものではない。

本出願の実施例によるデータ処理方法の適用環境の概略図である。本出願の実施例によるデータ処理方法の流れ概略図である。本出願の実施例によるデータ処理方法の概略図である。本出願の実施例による他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるさらに他のデータ処理方法の概略図である。本出願の実施例によるデータ処理装置の構成概略図である。本出願の実施例による電子装置の構成概略図である。

当業者に本出願の解決策をよりよく理解させるために、次に本出願の実施例における図面に基づいて、本出願の実施例における技術案を明確かつ完全に説明する。明らかに、説明する実施例は、全ての実施例ではなく、本出願の実施例の一部にすぎない。本出願における実施例に基づいて、当業者が創造的な労力をしない前提で得る全ての他の実施例は、本出願の保護の範囲に属する。

なお、本出願の明細書及び特許請求の範囲及び上記の図面における「第１の」、「第２の」などの用語は、類似の対象を区別するためのものであり、必ずしも特定の順序又は優先を説明するわけではない。このように使用されるデータは、適切な状況で交換することができ、その結果、本明細書に記載の本出願の実施例は、本明細書に図示または記載されたもの以外の順序で実施できることを理解すべきである。また、「含む」および「有する」という用語およびそれらの変形は、非排他的な包含をカバーすることを意図している。例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、またはデバイスは、必ずしも明確に記載されているステップまたはユニットに限定されず、明確に記載されていない、またはこれらのプロセス、方法、製品、またはデバイスに固有の他のステップまたはユニットを含む。

関連技術のシーケンスモデルは、一区切りのシーケンスにおける隣接するタイムステップの情報のみをキャプチャし、シーケンスで隣接するタイムステップ間の１次情報インタラクションを明示的にモデリングする。隣接していないタイムステップ間の高次の情報インタラクションをキャプチャできないため、隣接していないタイムステップ間の高次の情報インタラクションを十分に活用できない。

実際の適用では、１つシーケンスデータは数千または数百のタイムステップを含む可能性があり、１次情報インタラクションは、情報が時間の経過とともに徐々に希薄化し、勾配が分散し、まったく処理できないため、長期的な依存関係をモデリングできない。これにより、モデルによって長時間依存データをモデリングする能力が制限され、ひいてはモデルによって長距離時間依存性の問題を処理する能力が制限される。

上記の問題を解決するために、本出願の実施例の１つの態様によれば、データ処理方法を提供する。任意選択で、上記のデータ処理方法は、図１に示す適用環境に適用することができるが、これに限定されない。図１に示すように、上記のデータ処理方法は、ネットワーク１０４を介した端末デバイス１０２とサーバー１０６との間のインタラクションに関する。

端末デバイス１０２は、ターゲットシーケンスデータを収集するか又は他のデバイスからターゲットシーケンスデータを取得し、ターゲットシーケンスデータをネットワーク１０４を介してサーバー１０６に送信することができる。なお、ターゲットシーケンスデータは、時系列にソートされた複数の組のデータを含む。

サーバー１０６は、ターゲットシーケンスデータを取得した後、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順番に入力し、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得できる。なお、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果に従って、現在データを処理する。

任意選択で、データ処理結果を取得した後、サーバー１０６は、データ処理結果に応じてターゲットタスクの実行結果を決定でき、決定した実行結果をネットワーク１０４を介して端末デバイス１０４に送信し、端末デバイス１０４によって実行結果を保存してもよく、さらに実行結果を表示してもよい。

図１では、サーバー１０６がターゲットニューラルネットワークモデルを使用して、ターゲットシーケンスデータ（時系列に並べられたＮ組のデータを含み、Ｎが１より大きい）における各組のデータに含まれる各データに対して上記の処理を行うことを例として説明する。いくつかの実現形態では、サーバー１０６は、処理プロセスで、ある組のデータにおけるあるデータの処理結果に基づいて、ターゲットタスクの実行結果を決定してもよい。このとき、サーバー１０６は、ターゲットシーケンスデータにおける当該データの後のデータの処理手順を実行せず、現在の処理手順を終了してもよい。

つまり、サーバー１０６は、ターゲットニューラルネットワークモデルを使用して，ターゲットシーケンスデータにおける部分のデータに対して上記の処理手順を実行してもよい。理解を容易にするために、以下、第ｉ＋１組のデータにおけるｊ＋１番目のデータの処理手順を例として説明する。

具体的に、サーバー１０６は、まず第ｉ組のデータ、ターゲットニューラルネットワークモデルの第ｉ組のデータへの処理結果、及びターゲットニューラルネットワークモデルの第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果を取得し、そして、サーバー１０６は、第ｉ組のデータ、ターゲットニューラルネットワークモデルの第ｉ組のデータへの処理結果、及びターゲットニューラルネットワークモデルの第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、ターゲットニューラルネットワークモデルを使用して、第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、ターゲットニューラルネットワークモデルの第ｉ＋１組のデータにおけるｊ＋１番目のデータへの処理結果を取得する。

上記のｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数である。

なお、第１の組のデータに対して、第１の組のデータの一つ前の組のデータ及び一つ前の組のデータの処理結果を０とみなすことができ、そして、上記の処理方式で処理する。各組のデータの１番目のデータに対して、当該１番目のデータの１つ前のデータの処理結果を０とみなすことができ、そして、上記の処理方式で処理する。

上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析（例えば、感情分類）、対話システムなどを含むが、これらに限定されない。

任意選択で、本実施例では、上記の端末デバイスは、携帯電話、タブレットコンピュータなどの少なくとも一つを含むが、これらに限定されない。上記のネットワークは、無線ネットワーク、有線ネットワークの少なくとも一つを含むが、これらに限定されない。さらに、当該無線ネットワークは、ブルートゥース（登録商標）、無線フィデリティ（Ｗｉｒｅｌｅｓｓ－Ｆｉｄｅｌｉｔｙ，ＷＩＦＩ）、他の無線通信を実現するネットワークを含む。当該有線ネットワークは、ローカルネットワーク、メトロポリタンエリアネットワーク、ワイドエリアネットワークなどを含んでもよい。上記のサーバーは、ターゲットニューラルネットワークモデルを使用して、ターゲットシーケンスモデルを処理するデバイスの少なくとも一つを含むが、これらに限定されない。上記は一例に過ぎず、本実施例では、これを限定しない。

任意選択で、本実施例では、任意選択の実施形態として、図２に示すように、上記のデータ処理方法は、次のステップを含んでもよい。
Ｓ２０２、ターゲットシーケンスデータを取得し、ターゲットシーケンスデータは、時系列にソートされたＮ組のデータを含む。
Ｓ２０４、Ｎ組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、各組のデータにおける各データがターゲットニューラルネットワークモデルに入力される場合、現在の組のデータにおける現在データと見なされ、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果に従って、現在データを処理する。
Ｓ２０６、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得する。

図１と同様に、図２もターゲットデータシーケンスにおけるＮ組のデータのそれぞれに対して上記の処理を行うことを例として説明する。実際の適用では、ターゲットデータシーケンスにおける若干のデータに対して上記の処理を行ってもよく、本実施例では、これを限定しない。

任意選択で、上記のデータ処理方法は、ターゲットニューラルネットワークを使用してターゲットタスクを実行するプロセスに適用してもよいが、これに限定されない。上記のターゲットタスクは、ターゲットシーケンスデータの時系列の情報に従って、ターゲットタスクを実行する実行結果を決定してもよい。例えば、上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析（例えば、感情分類）、対話システムなどである。

例えば、アクションの分類を例として、ビデオデータはシーケンスデータであり、各データは１つのビデオフレーム（ビデオ画像）であり、ビデオデータをターゲットニューラルモデルに入力して、ビデオデータの処理結果を取得する。ビデオデータの処理結果に従って、一組のアクションから、ビデオデータにおけるオブジェクトによって実行されるアクション、例えば、相手に向かって歩くアクションを決定する。

例えば、感情の認識を例として、テキストデータ（例えば商品レビュー、実際の製品であってもよく、仮想サービスなどであってもよい）におけるセンテンスの内部及びセンテンスの間に前後順序があり、時系列にソートされたデータとみなすことができる。テキストデータをターゲットニューラルモデルに入力し、テキストデータの処理結果を取得する。テキストデータの処理結果に従って、一組の感情から、テキストデータの感情的な傾向、例えば、ポジティブ（良いレビュー）、ネガティブ（悪いレビュー）などを決定する。

次に、図２を基づいて、本実施例における上記のデータ処理方法を説明する。

ステップＳ２０２では、ターゲットシーケンスデータを取得し、ターゲットシーケンスデータは、時系列にソートされたＮ組のデータを含む。

サーバー（又は、端末デバイス）は、ターゲットタスクを実行でき、上記のターゲットタスクは、ビデオ理解の分類（例えば、アクション認識）、テキスト分析（感情分析）、対話システムであってもよい。サーバーは、ターゲットタスクに関するターゲットシーケンスデータを分析し、ターゲットタスクの実行結果を決定してもよい。

上記のターゲットシーケンスデータは、時系列にソートされた複数のデータを含んでもよい。ターゲットシーケンスデータが時系列にソートされる方式は、複数があり、例えば、ビデオデータの場合、ビデオデータにおけるビデオフレーム（画像）を時間の順序に応じてソートし、テキストデータの場合、テキストにおける単語の出現順序に応じてソートする。なお、単語は、独立して使用できる言語単位である。単語は、「私」や「山」などの１文字の単語であってもよく、「好き」や「社会」などの１文字以外の単語であってもよい。少なくとも１つの単語を組み合わせてフレーズを形成し、少なくとも１つのフレーズを順に組み合わせて語句を形成し、少なくとも１つの語句を順に組み合わせてテキストを形成する。

任意選択の実施形態として、ターゲットシーケンスデータを取得するステップは、ターゲットビデオデータを取得するステップを含み、ターゲットビデオデータは、時系列にソートされたＮ組のビデオフレームグループを含み、ターゲットビデオデータは、ターゲットビデオデータにおけるターゲットオブジェクトによって実行されるアクションの認識を実行するためのものである。

任意選択の実施形態として、ターゲットシーケンスデータを取得するステップは、ターゲットテキストデータを取得するステップを含み、ターゲットテキストデータは、少なくとも１つのセンテンスを含み、少なくとも１つのセンテンスは、前後順序を有するＮ個のフレーズを含み、ターゲットテキストデータは、ターゲットテキストデータが表す感情タイプの認識を実行するためのものである。

本出願の実施例の上記の技術案によれば、異なるタイプのターゲットタスクに対して異なるターゲットシーケンスデータを取得することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させることができる。

ターゲットシーケンスデータを取得した後、ターゲットシーケンスデータをグループ化することができ、ターゲットシーケンスデータを時系列に複数の組のデータに分割することができる。

任意選択で、本実施例では、ターゲットシーケンスデータを取得した後、ターゲットのスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、複数の組のデータを取得する。

シーケンスモデルの処理効率を確保するために、ターゲットスライディングウィンドウのウィンドウサイズをターゲットステップサイズと同じに設置してもよい。シーケンスモデルの処理精度を確保するために、ターゲットスライディングウィンドウのウィンドウサイズをターゲットステップサイズより大きく設置してもよい。

異なるタイプのターゲットシーケンスデータ、又は異なるターゲットシーケンスデータに対して、使用するターゲットスライディングウィンドウのウィンドウサイズとターゲットステップサイズとは、同じでも異なっても構わない。同じターゲットシーケンスデータに対して、複数種類のターゲットスライドウィンドウのウィンドウサイズとターゲットステップサイズでサンプリングしてもよい。

任意選択で、ターゲットシーケンスデータの収集（ターゲットスライドウィンドウのスライディング）、及びターゲットニューラルネットワークモデルを使用してデータを処理することは、順に実行されてもよい。ターゲットスライドウィンドウを１回スライドさせて、一組のデータを取得し、ターゲットニューラルネットワークモデルを使用して、当該組のデータを処理し、ターゲットニューラルネットワークモデルを使用して当該組のデータを処理した後、ターゲットスライドウィンドウのウィンドウサイズとターゲットステップサイズを調整し（調整しなくてもよい）、次の組のデータを取得し、ターゲットニューラルネットワークモデルに当該次の組のデータを処理させ、全てのターゲットシーケンスデータを処理するまで繰り返す。

ターゲットシーケンスデータの最後の組のデータについて、含まれるデータの数は、ターゲットスライドウィンドウのサイズより小さい場合があり、データはターゲットニューラルネットワークモデルに順に入力されて処理されるため、最後の組のデータに含まれるデータの数は、ターゲットニューラルネットワークモデルによるデータへの処理に影響を与えない。

本出願の実施例の上記の技術案によれば、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータでスライドし、複数の組のデータを取得することで、ターゲットシーケンスデータを便利にグループ化して、ターゲットシーケンスデータの処理効率を向上させることができる。

ステップＳ２０４では、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、各組のデータにおける各データがターゲットニューラルネットワークモデルに入力される場合、現在の組のデータにおける現在データと見なされる。ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果に従って、現在データを処理する。

複数の組のデータ（複数の組のデータの全体又は部分）を取得した後、取得した複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、ターゲットニューラルネットワークモデルを使用して、各データを処理してもよい。

上記のターゲットニューラルネットワークモデルは、入力した各データを順に処理し、少なくともキャプチャされた１つ前のデータの処理結果に従って、現在データを処理できるという特徴がある。上記のターゲットニューラルネットワークモデルは、ループニューラルネットワークモデル（再帰型ニューラルネットワークモデル）であってもよく、使用するループニューラルネットワークは、ＲＮＮ、ＬＳＴＭ、高次のＲＮＮ、高次のＬＳＴＭの少なくとも１つを含み得る。

複数の組のデータのうち第１組のデータについて、第１組のデータにおける現在データをターゲットニューラルネットワークモデルに順に入力し、現在データの１つ前のデータの処理結果（１つ前の処理結果）を使用して、現在データを処理し、現在データの処理結果（現在処理結果）を取得してもよい。現在データが第１組のデータにおける１番目のデータである場合、現在データをターゲットニューラルネットワークモデルに入力して現在データを処理する。

例えば、ターゲットニューラルネットワークモデルがＲＮＮ（図３に示す）を含む場合、ターゲットニューラルネットワークモデルを使用して第１組のデータを処理して取得した処理結果は、ターゲットニューラルネットワークモデルに含まれるＲＮＮを使用して第１組のデータを処理して取得した処理結果と同じである。

例えば、ターゲットニューラルネットワークモデルがＬＳＴＭを含む場合、ターゲットニューラルネットワークモデルを使用して第１組のデータを処理して取得した処理結果は、ＬＳＴＭ（図４に示す）を使用して第１組のデータを処理して取得した処理結果と同じである。

任意選択で、本実施例では、複数の組のデータのうち各組のデータにおける各データをターゲットニューラルネットワークモデルに順に入力するステップは、一つ前の組のデータ、一つ前の組の処理結果、及び１つ前の処理結果を取得するステップと、現在データをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルから出力する、現在データに対応する現在処理結果を取得するステップとを含み、ターゲットニューラルネットワークモデルが現在データを処理するプロセスでは、一つ前の組のデータ、一つ前の組の処理結果、及び１つ前の処理結果に従って、現在データを処理する。

本出願の実施例の上記の技術案によれば、一つ前の組のデータ、一つ前の組の処理結果（ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した１組の処理結果）、及び１つ前の処理結果（ターゲットニューラルネットワークモデルを使用して１つ前のデータを処理して取得した処理結果）を取得し、ターゲットニューラルネットワークモデルによって一つ前の組のデータ、一つ前の組の処理結果、及び１つ前の処理結果に従って、現在データを処理し、現在データに対応する処理結果を取得することで、現在データの処理を完成し、ターゲットニューラルネットワークモデルの処理流れを完成する。

複数の組のデータのうち第１組のデータ以外の他の組のデータ（現在の組のデータ）については、まず、現在データの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータにおける各データを処理して取得した一つ前の組の処理結果（一つ前の組のデータにおける各データと一つ前の組の処理結果の各処理結果との間に１対１の対応関係があり得る）、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果を取得する。

一つ前の組のデータと一つ前の組の処理結果が全体として（例えば、一つ前の組のデータの高次元の特徴情報を抽出する）ターゲットニューラルネットワークモデルに作用することは、まず、ターゲット処理モデルを使用して一つ前の組のデータ及び一つ前の組の処理結果を処理し、ターゲット特徴情報（第１の特徴情報）を取得する。

上記のターゲット特徴情報は、一つ前の組のデータ及び一つ前の組の処理結果に基づいて取得でき、一つ前の組のデータ、一つ前の組の処理結果をターゲット処理モデルにおけるターゲット自己注意モデルに入力し、ターゲット自己注意モデルから出力した、一つ前の組のデータに対応する第２の特徴情報を取得する。第２の特徴情報は、ターゲット特徴情報として出力することができる。

ターゲット特徴情報の生成は、一つ前の組のデータと一つ前の組のデータの処理結果を結びつけることで、複数のデータセグメント間でシーケンスデータの情報を循環させることができる。従って、より長い時間依存関係をキャプチャでき、データセグメント間でグローバルインタラクションをモデリングする。

第２の特徴情報の以外、ターゲット特徴情報は、一つ前の組のデータより前の１つ又は複数の組のデータの処理結果に基づいて、取得することもできる。

任意選択で、本実施例では、現在データをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルから出力した、現在データに対応する現在処理結果を取得するステップは、ターゲット処理モデルから出力される、一つ前の組のデータに対応する第１の特徴情報、及び１つ前の処理結果を取得するステップであって、ターゲット処理モデルは、ターゲット自己注意モデルと第１のゲートを含み、第１の特徴情報は第２の特徴情報と第３の特徴情報を第１のゲートに入力して取得され、第２の特徴情報は一つ前の組のデータと一つ前の組の処理結果をターゲット自己注意モデルに入力して取得され、第３の特徴情報はターゲット処理モデルから出力された、一つ前の組のデータに対応する特徴情報であり、当該特徴情報は一つ前の組のデータ（第ｉ組のデータ）の組内特徴情報であり、第１の特徴情報はターゲット処理モデルから出力された、現在組のデータに対応する特徴情報であり、当該第１の特徴情報は現在組のデータ（第ｉ＋１組のデータ）の組内特徴情報であり、第１のゲートは、第２の特徴情報の第１の特徴情報として出力される割合、及び第３の特徴情報の第１の特徴情報として出力される割合を制御するように設置されるステップと、現在データをターゲットニューラルネットワークモデルに入力し、現在処理結果を取得するステップであって、ターゲットニューラルネットワークモデルが現在データを処理するプロセスで、第１の特徴情報と１つ前の処理結果に従って、現在データを処理するステップと、を含む。

第２の特徴情報の以外、ターゲット特徴情報は、ターゲット処理モデルから出力される、一つ前の組のデータに対応する特徴情報に基づいて生成される（第３の特徴情報）。

例えば、図５に示すように、一つ前の組のデータ（第ｉ組のデータ）と一つ前の組の処理結果（第ｉ組のデータへの処理結果）をターゲット処理モデルにおけるターゲット自己注意モデルに入力し、第２の特徴情報を取得し、ターゲット処理モデルを使用して一つ前の組のデータを処理して取得した第３の特徴情報も一緒に第１のゲートに入力し、第１のゲートにより、第１の特徴情報に出力する第２の特徴情報及び第３の特徴情報の部分を制御して（第１のゲートにより、どの情報を保持するか、どの程度保持するか、どの情報を破棄するかを制御する）、第１の特徴情報（ターゲット特徴情報）を取得する。

本出願の実施例の上記の技術案によれば、ターゲット自己注意モデルによって一つ前の組のデータと一つ前の組の処理結果の間の関係、及び一つ前の組の処理結果における各処理結果間の情報マッチング程度をモデリングし、第１のゲートを使用してシーケンスデータセグメント間の情報流れを制御することで、長期的な依存関係モデリングの精度を保証する。

第１の特徴情報を取得した後、取得した第１の特徴情報を、ターゲットニューラルネットワークモデルによる現在の組のデータの各データに対する処理プロセスに順に作用することができる。

任意選択で、本実施例では、現在データをターゲットニューラルネットワークモデルに入力し、現在処理結果を取得するプロセスでは、第１の特徴情報及び現在データを第２のゲートに入力し、ターゲットパラメータを取得し、第２のゲートは、第１の特徴情報のターゲットパラメータとして出力される割合、及び現在データのターゲットパラメータとして出力される割合を制御するように設置され、ターゲットパラメータをターゲットニューラルネットワークモデルに入力し、ターゲットニューラルネットワークモデルの出力を制御する。

本出願の実施例の上記の技術案によれば、ターゲットニューラルネットワークに１つのゲート（第２のゲート）を追加し、ターゲット特徴情報を導入して現在の隠れ状態を更新することで、現在時間ステップでも長距離シーケンス情報をうまくキャプチャできる。

ステップＳ２０６では、ターゲットニューラルネットワークモデルが出力するデータ処理結果を取得する。

ターゲットシーケンスデータにおける各データを処理した後、最後のデータに対する前記ターゲットニューラルネットワークモデルの処理結果を、ターゲットシーケンスデータに対する処理の最終結果として出力することができる。

ターゲットニューラルネットワークモデルから出力されるデータ処理結果を取得した後、データ処理結果を分析し、ターゲットタスクの実行結果を取得してもよい。上記のターゲットタスクは、情報フローの推奨、ビデオ理解、対話システム、感情分析などを含むが、これらに限定されない。

任意選択の実施形態として、ターゲットニューラルネットワークモデルが出力するデータ処理結果（ターゲットシーケンスデータにおけるあるデータの処理結果であってもよく、最後のデータの処理結果を含む）を取得した後、データ処理結果に従って、第１の確率情報（参照アクションセットにおける各参照アクションに対応する複数の確率値があり得る）を決定し、第１の確率情報は、ターゲットオブジェクトによって実行されるアクションがそれぞれ参照アクションセットにおける各参照アクションの確率を示し、第１の確率情報に従って、ターゲットオブジェクトによって実行されるアクションが参照アクションセットにおけるターゲットアクションであると決定する。

以下では、任意選択の例と結合して、上記のデータ処理方法を説明する。図６に示すように、ターゲットシーケンスデータは一区切りのビデオデータであり、当該ビデオデータは、複数のビデオフレームを含む。ターゲットタスクは、ビデオスニペットにおける人物のアクションを認識することであり、この例のビデオに示されているアクションは、「相手に向かって歩く」ことである。

スライドウィンドウサイズに応じて、上記の複数のビデオフレームを、Ｎ個ごとに一グループとする（例えば、５又は１０個のビデオフレームごとに一グループとする）方式で、複数のビデオフレームグループに分割する。複数のビデオフレームグループのうち各ビデオフレームグループにおける各ビデオフレームを、ターゲットニューラルネットワークモデルに順に入力する。各ビデオフレームグループについて、最後のビデオフレームの処理が完了した後、入力されたビデオフレーム（ｘ_ｉ）と出力された処理結果（ｈ_ｉ）に従って第２の特徴情報を取得して、第１の特徴情報を取得する。すべてのビデオフレームの処理が完了した後、最後のビデオフレームの処理結果に従って、ビデオに示すアクションが「相手に向かって歩く」と予測する。

２人の相対距離の経時変化がアクション認識の鍵となるため、ターゲットニューラルネットワークモデルは、２人の相対距離の経時変化をうまくキャプチャできるので、アクションを正しく認識することができる。ＬＳＴＭなどのモデルの場合、２人の相対距離の経時変化をうまくキャプチャできないため、アクションを正しく認識できず、アクションを「相手を打つ」と誤認識してしまう。

他の任意選択の実施形態として、ターゲットニューラルネットワークモデルが出力するデータ処理結果（ターゲットシーケンスデータにおけるあるデータの処理結果であってもよく、最後のデータの処理結果を含む）を取得した後、データ処理結果に従って、第２の確率情報（参照感情タイプセットにおける各参照感情タイプに対応する複数の確率値があり得る）を決定し、第２の確率情報は、ターゲットテキストデータの表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示し、第２の確率情報に従って、ターゲットテキストデータの表す感情タイプが参照感情タイプセットにおけるターゲット感情タイプであると決定する。

以下では、任意選択の例と結合して、上記のデータ処理方法を説明する。図７に示すように、ターゲットシーケンスデータは一区切りのレビューであり、当該レビューは、複数のセンテンスを含む。ターゲットタスクは、特定レビューにおける感情タイプを認識することである。本例では、レビューの感情タイプは、「ネガティブ」である。

スライドウィンドウサイズに応じて、上記のレビューを、Ｎ個のセンテンスごとに一グループとする（例えば、２又は３個のセンテンスごとに一グループとする）方式で、複数のセンテンスグループに分割する。なお、センテンスグループは、実際には単語の組み合わせであり、従って、センテンスグループは一種のフレーズと見なすこともできる。複数のセンテンスグループのうち各センテンスグループにおける各センテンスを、ターゲットニューラルネットワークモデルに順に入力する。各センテンスグループについて、最後のセンテンス処理が完了した後、入力されたセンテンス（ｘ_ｉ）と出力された処理結果（ｈ_ｉ）に従って、第２の特徴情報を取得し、第１の特徴情報を取得する。すべてのセンテンス処理が完了した後、最後のセンテンスの処理結果に従って、レビューにおける感情タイプが「ネガティブ」と予測する。

このレビューでは、前のいくつかのセンテンス（「私が…無神経なもの」）は、悪いレビューの傾向を示す重要な手がかりである。最後のタイムステップでの隠れ状態ｈ_Ｔによって忘れられやすいため、ＬＳＴＭによってキャプチャされにくい。レビューの最後のいくつかのセンテンス（「注目に値するのは…これはちょっと面白い」）は、良いレビューの傾向を示し、ＬＳＴＭモデルの認識を誤解させる。従って、ＬＳＴＭモデルは、レビューの感情タイプが「ポジティブ」であると認識する。

本出願の実施例の上記の技術案によれば、異なるタイプのターゲットタスクに対してターゲットタスクの実行結果を決定することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させる。

この実施例によって、ターゲットシーケンスデータにおける各データをターゲットニューラルネットワークモデルに順に入力し、ターゲットニューラルネットワークモデルによって、現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果に従って、現在データを処理し、ターゲットニューラルネットワークモデルが出力したデータ処理結果を取得することで、関連技術のシーケンスモデルが長期的な依存関係をモデリングできない問題を解決し、長期的な依存関係のキャプチャを実現して、長期的な依存関係のモデリングを実現する。

なお、図６は最後のフレームビデオフレームへの処理結果であり、図７は最後のセンテンスへの処理結果を例として説明する。実際の適用では、サーバー１０６は、他のビデオフレーム又は他のセンテンスへの処理結果に基づいて、上記のタスクを実行してもよい。

次に、任意選択の例と結合して、上記のデータ処理方法を説明する。現在のシーケンスモデリングアルゴリズムが長距離時間依存関係を処理できない欠点を考慮して、この例のデータ処理方法で使用するターゲットニューラルネットワークモデルは、ローカル循環メモリに基づくＬＳＴＭモデルであり得る。

ターゲットニューラルネットワークモデルは、シーケンスデータセグメントのフルオーダーモデリング、及びシーケンスデータセグメント間のグローバルインタラクションのモデリングを実行することができる。図８に示すように、ターゲットニューラルネットワークモデルは、主に、非ローカル循環メモリユニット（Ｍｅｍｏｒｙ）とシーケンスモデル（シーケンスモデリング）の２つの部分を含む。
（１）非ローカル循環メモリユニット（Ｍｅｍｏｒｙ）
非ローカル循環メモリユニットは、各シーケンスデータセグメント（メモリブロック）の異なるタイムステップでのターゲットニューラルネットワークモデル（例えば、ＬＳＴＭ）の隠れ状態間の高次の相互作用を学習できる。同時に、ゲートループの方式でメモリブロック間のグローバルインタラクションをモデリングする。各メモリブロックで学習されたメモリ状態は、将来のタイムステップに作用され、ターゲットニューラルネットワークモデル（例えば、ＬＳＴＭ）の隠れ状態を調整して、より優れた特徴表現を取得する。

非ローカル循環メモリユニットは、シーケンスデータセグメントのフルオーダーのインタラクションを処理でき、データセグメント内の高次元の特徴（例えば、Ｍ_{ｔ－ｗｉｎ}、Ｍ_ｔ、Ｍ_{ｔ＋ｗｉｎ}）を抽出し、データセグメント間のメモリフロー（例えば、Ｍ_{ｔ－ｗｉｎ}→Ｍ_ｔ→Ｍ_{ｔ＋ｗｉｎ}、Ｍ_{ｔ－ｗｉｎ}→Ｃ_ｔ，Ｃ_ｔ－１など）を実現する。

図８に示すＭ_{ｔ－ｗｉｎ}、Ｍ_ｔ、Ｍ_{ｔ＋ｗｉｎ}は、異なる入力データグループの非ローカル循環メモリユニットに対応する。図８に示すように、一つ前の組のデータに対応するメモリユニットに対して、一つ後の組のデータにおける各データの処理プロセスに作用することができる。

シーケンスデータセグメント（データグループ、図８に示すブロックサイズ）の場合、入力データｘとＬＳＴＭモデルの出力ｈを考慮すると、非ローカル循環メモリユニットは、自注意力メカニズム（図９に示すように）を使用して、入力ｘとＬＳＴＭ出力ｈの間の関係、及び各ｈとｈの間の情報マッチング程度を暗黙的にモデリングして、現在の高次元の特徴

を取得し、同時にメモリゲートを使用してシーケンスデータセグメント間の情報の流れを制御する。

非ローカル循環メモリユニットの構造は、図９に示す。非ローカル循環メモリユニットは、自己注意モデルとメモリゲートの２つの部分に分けて、自己注意モデル（ＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ、注意力モジュールとも称し、その作用は前述のターゲット自己注意モデルと同じである）は、入力情報間の関係をモデリングし特徴を抽出して、メモリゲート（ＭｅｍｏｒｙＧａｔｅ、作用が前述の第１のゲートと同じである）は、情報の冗長性と過剰適合を回避するために、異なるタイムステップで情報の流れを制御する。

図９に示すように、非ローカル循環メモリユニットが現在の組のデータ（現在データセグメント、ｘ_ｔ－ｓ…ｘ_ｔ…ｘ_ｔ＋ｓ）に対応するＭ_ｔを取得する手順は、次の通りである。
まず、一つ前の組のデータ（入力、ｉｎｐｕｔｓ、ｘ_ｔ－ｓ…ｘ_ｔ…ｘ_ｔ＋ｓ）と一つ前の組の処理結果（出力、隠れ状態、ｈｉｄｄｅｎｓ、ｈ_ｔ－ｓ…ｈ_ｔ…ｈ_ｔ＋ｓ）を自己注意モデルに入力し、

を取得する。

自己注意モデルの場合、ｉｎｐｕｔｓ（各ｉｎｐｕｔは、１つの特徴ベクトルとして表す）と、ｈｉｄｄｅｎｓ（各ｈｉｄｄｅｎは、１つの特徴ベクトルとして表す）を取得した後、この２つを接続（Ｃｏｎｃａｔ）して、第１の接続データ（ＡｔｔｅｎｔｉｏｎＭａｓｋ、注意力行列は、特徴ベクトル行列として表す）を取得する。

第１の接続データに対して自注意力処理を行い、特徴ベクトルの重要度に応じて、第１の接続データ（ＡｔｔｅｎｔｉｏｎＭａｓｋ）を処理して、特徴ベクトル間の関連付けを行う。予め定義された３つのパラメータ行列Ｗ^ｑ、Ｗ^ｋ及びＷ^ｖを使用して、ＡｔｔｅｎｔｉｏｎＭａｓｋを処理し、Ｍ_ａｔｔを取得し、Ｍ_ａｔｔは視覚化メモリブロックの注意力重み行列である。

Ｍ_ａｔｔを取得した後、Ｍ_ａｔｔとＡｔｔｅｎｔｉｏｎＭａｓｋを加算して正規化し（Ａｄｄ＆Ｎｏｒｍ）、第２の接続データを取得し、第２の接続データに対して全接続処理（ｆｕｌｌｙＣｏｎｎｅｃｔｅｄ）を実行して、第３の接続データを取得し、第２の接続データと第３の接続データを加算して正規化し（Ａｄｄ＆Ｎｏｒｍ）、

を取得する。

そして、

に従って、Ｍ_ｔを取得する。

任意選択の実施形態として、

を取得した後、

をＭ_ｔとして出力する。

従来技術のシーケンスモデルは、隣接するタイムステップを処理して、長距離のタイムスパンモデリングをできない。この例の上記の技術案によれば、ターゲットニューラルネットワークモデルは、高次の情報をモデリングでき、シーケンスデータセグメントのすべてのタイムステップ間のインタラクションに対してフルオーダーモデリングを行い、データセグメント間に対してグローバルインタラクションのモデリングを行うことができる。従って、ターゲットニューラルネットワークモデルは、より長い時間依存関係をキャプチャできる。

他の任意選択の実施形態として、

を取得した後、Ｍ_{ｔ－ｗｉｎ}と

をメモリゲート（作用は前述の第１のゲートと同じである）に入力し、メモリゲートの出力をＭ_ｔとする。メモリゲートは、シーケンスデータセグメント間の情報循環を制御する。

この例の上記の技術案によれば、ターゲットニューラルネットワークモデルは、隣接していないタイムステップサイズ間の高次のインタラクションに含まれる潜在的な高次元の特徴を学習でき、高次元の特徴の抽出を強化できる。

（２）シーケンスモデル（シーケンスモデリング）
非ローカル循環メモリユニットをＬＳＴＭなどの現在のシーケンスデータ処理モデルに埋め込んで、現在のシーケンスデータ処理モデルの長いシーケンスデータモデリング能力を改善する。

非ローカル循環メモリユニット（非ローカルメモリユニットとも称する）は、既存の再帰構造のシーケンスモデル、例えば、ＲＮＮ／ＧＲＵ／ＬＳＴＭなどにシームレスに集積でき（図８に示すように、図８は非ローカルメモリユニットをＬＳＴＭモデルに埋め込み得られたターゲットニューラルネットワークモデルを示す）、既存のシーケンスモデル（例えば、ビデオ理解、対話システムなど）におけるシーケンスモデリング能力を強化し、集積したモデルに対してエンドツーエンドでトレーニングでき、非ローカル循環メモリユニットは、良好な移動能力を有することができる。

例えば、非ローカル循環メモリユニットは、現在のビジネスラインモデル（例えば、ＬＳＴＭ）にシームレスに埋め込むことができ、二次開発のコストを最小限に抑える。図１０に示すように、ＬＳＴＭを例として、ＬＳＴＭのｃｅｌｌユニットを修正することにより、ＬＳＴＭモデルに１つのゲートｇ_ｍ（作用は前述の第２のゲートと同じである）を直接追加し、Ｍ_{ｔ－ｗｉｎ}を導入して現在の隠れ状態を更新することで、現在のタイムステップでも長距離のシーケンス情報をうまくキャプチャできる。

情報を更新するたびに、前のシーケンスデータセグメントの情報Ｍ_{ｔ－ｗｉｎ}を参照して、シーケンスデータセグメント間で情報の循環を保証でき、即ち、長距離シーケンスの関係をキャプチャでき、モデルのパフォーマンスが効果的に向上する。また、現在のモデルに便利に埋め込むことができ、開発コストを最小限に抑える。

また、過剰適合と情報の冗長性を回避するために、ターゲットニューラルネットワークモデルは、異なるステップサイズ（ｓｔｒｉｄｅ）で情報をサンプリングすることをサポートし、同時に動的（ｓｌｉｄｉｎｇｗｉｎｄｏｗ、スライディングウィンドウ）の特徴の更新をサポートする。

この例の上記の技術案によれば、非ローカル循環メモリネットワークにより、シーケンスモデルは、１つのシーケンスデータセグメントで非ローカル動作の方式でフルオーダーインタラクションをモデリングし、シーケンスデータセグメント間でゲート方式で情報を更新して、グローバルインタラクションをモデリングすることで、長期的な依存関係をキャプチャでき、高次のインタラクションに含まれる潜在的な高次元の特徴を抽出することもできる。

前記の方法実施例について、簡単に説明するために、一連の動作の組み合わせとして記述する。但し、当業者は、本出願によれば、特定のステップが他の順序又は同時に実行されてもよく、本出願が記述した動作順序によって制限されないことを理解すべきである。また、当業者は、明細書に記述した実施例がいずれも好ましい実施例に属し、係る動作及びモジュールが本出願に必ずしも必要ではないことを理解すべきである。

本出願の実施例の他の態様によれば、上記のデータ処理方法を実施するための仮想シーンにおけるデータ処理装置を提供し、図１１に示すように、当該装置は、
（１）ターゲットシーケンスデータを取得するための通信モジュール１１０２であって、前記ターゲットシーケンスデータは、時系列にソートされたＮ組のデータを含み、前記Ｎが１より大きい通信モジュール１１０２と、
（２）前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルの前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータの処理結果を取得するための処理モジュール１１０４であって、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数である処理モジュール１１０４を含む。

任意選択で、上記のデータ処理装置は、ターゲットニューラルネットワークを使用してターゲットタスクを実行するプロセスに適用することができるが、これに限定されない。上記のターゲットタスクは、ターゲットシーケンスデータの時系列の情報に従って、ターゲットタスクの実行結果を決定できる。例えば、上記のターゲットタスクは、ビデオ理解の分類、異常な動きの検出、テキスト分析（例えば、感情分類）、対話システムなどであり得る。

任意選択で、通信モジュール１１０２は、上記のステップＳ２０２を実行でき、処理モジュール１１０４は、上記のステップＳ２０４とステップＳ２０６を実行できる。

本実施例によって、ターゲットニューラルネットワークモデルが現在の組のデータの一つ前の組のデータ、ターゲットニューラルネットワークモデルを使用して一つ前の組のデータを処理して取得した一つ前の組の処理結果、及びターゲットニューラルネットワークモデルを使用して現在データの１つ前のデータを処理して取得した１つ前の処理結果に従って、現在データを処理することで、関連技術のシーケンスモデルが長期的な依存関係をモデリングできない問題を解決し、長期的な依存関係のキャプチャを実現して、長期的な依存関係のモデリングを実現し、モデリングの精度を向上させ、当該方法で得られたモデルは、視覚処理、テキスト分析、及び対話システムなどのシーンに幅広く使用できる。

任意選択の実施形態として、処理モジュール１１０４は、
（１）ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記Ｎ組のデータのうち第ｉ組のデータ及び前記ターゲットニューラルネットワークモデルの前記第ｉ組のデータへの処理結果を処理し、第２の特徴情報を取得するための第１の処理ユニットと、
（２）ターゲット処理モデルにおける第１のゲートを使用して、前記第２の特徴情報及び第３の特徴情報を処理し、第１の特徴情報を取得するための第２の処理ユニットであって、前記第１の特徴情報は、前記第ｉ＋１組のデータの組内特徴情報であり、前記第３の特徴情報は、前記第ｉ組のデータの組内特徴情報であり、前記第１のゲートは、前記第２の特徴情報の前記第１の特徴情報として出力される割合、及び前記第３の特徴情報の前記第１の特徴情報として出力される割合を制御する第２の処理ユニットと、
（３）前記第１の特徴情報と、前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理するための第３の処理ユニットとを含む。

本実施例によって、ターゲット自己注意モデルが一つ前の組のデータと一つ前の組の処理結果間の関係、及び一つ前の組の処理結果における各処理結果間の情報マッチング程度をモデリングし、第１のゲートを使用してシーケンスデータセグメント間の情報流れを制御することで、長期的な依存関係モデリングの精度を保証できる。

任意選択の実施形態として、第３の処理ユニットは、具体的に、
第２のゲートを使用して、前記第１の特徴情報と前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、ターゲットパラメータを取得し、前記第２のゲートは、前記第１の特徴情報の前記ターゲットパラメータとして出力される割合及び前記ｊ＋１番目のデータの前記ターゲットパラメータとして出力される割合を制御し、
前記ターゲットニューラルネットワークモデルを使用して、前記ターゲットパラメータを処理する。

本実施例によって、ターゲットニューラルネットワークに１つのゲート（第２のゲート）を追加し、第１の特徴情報を導入して現在の隠れ状態を更新することで、現在のタイムステップでも長距離のシーケンス情報をうまくキャプチャできる。

任意選択の実施形態として、上記の装置は、
ターゲットシーケンスデータを取得した後、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、Ｎ組のデータを取得するためのスライドモジュールをさらに含む。

本実施例によって、ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて、ターゲットシーケンスデータをスライドし、複数の組のデータを取得することで、ターゲットシーケンスデータを便利にグループ化して、ターゲットシーケンスデータの処理効率を向上させることができる。

任意選択の実施形態として、通信モジュール１１０２は、具体的に、
ターゲットビデオデータを取得し、前記ターゲットビデオデータは、時系列にソートされたＮ組のビデオフレームグループを含み、前記ターゲットビデオデータは、前記ターゲットビデオデータ内のターゲットオブジェクトにより実行されるアクションを認識するためのものであり、
上記の装置は、第１の決定モジュールをさらに含み、
第１の決定モジュールは、前記Ｎ組のビデオフレームグループにおける少なくとも１つのビデオフレームグループの少なくとも一つのフレームビデオフレームへの処理結果に従って、第１の確率情報を決定し、第１の確率情報はターゲットオブジェクトにより実行されるアクションがそれぞれ参照アクションセットにおける各参照アクションである確率を示し、第１の確率情報に従って、ターゲットオブジェクトにより実行されるアクションが参照アクションセットにおけるターゲットアクションでありと決定する。

任意選択の実施形態として、通信モジュール１１０２は、具体的に、
ターゲットテキストデータを取得し、前記ターゲットテキストデータは、少なくとも１つのセンテンスを含み、前記少なくとも１つのセンテンスは、前後順序を有するＮ個のフレーズを含み、前記ターゲットテキストデータは、前記ターゲットテキストデータが表す感情タイプを認識するためのものであり、
上記の装置は、第２の決定モジュールをさらに含み、
第２の決定モジュールは、前記Ｎ個のフレーズのうち少なくとも１つのフレーズにおける少なくとも１つの単語の処理結果に従って、第２の確率情報を決定し、第２の確率情報は、ターゲットテキストデータの表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示し、第２の確率情報に従って、ターゲットテキストデータの表す感情タイプが参照感情タイプセットにおけるターゲット感情タイプであると決定する。

本実施例によって、異なるタイプのターゲットタスクに対して異なるターゲットシーケンスデータを取得し、異なるタイプのターゲットタスクに対してターゲットタスクの実行結果を決定することで、異なるタイプのタスクニーズを満たし、シーケンスモデルの適用性を向上させることができる。

本出願の実施例のさらに他の態様によれば、記憶媒体を提供し、当該記憶媒体にコンピュータプログラムが記憶され、当該コンピュータプログラムは、実行される場合、上記のいずれか一項に記載の方法実施例におけるステップを実行するように設置される。

任意選択で、本実施例では、上記の記憶媒体は、次のステップを実行するためのコンピュータプログラムを記憶するように設置される。
Ｓ１、ターゲットシーケンスデータを取得し、前記ターゲットシーケンスデータは、時系列でソートされたＮ組のデータを含み、前記Ｎが１より大きい。
Ｓ２、前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルの前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得し、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数である。

任意選択で、本実施例では、当業者は、上記の実施例の各方法におけるステップの全て又は一部が、プログラムを通じて端末デバイスの関連するハードウェアに指示することによって完成できることを理解できる。当該プログラムは、コンピュータ可読記憶媒体に記憶することができる。記憶媒体は、フラッシュメモリディスク、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）、磁気ディスク又は光ディスクなどを含んでもよい。

本出願の実施例のさらに他の態様によれば、上記のデータ処理方法を実施するための電子装置を提供し、図１２に示すように、当該電子装置は、プロセッサー１２０２、メモリ１２０４、伝送装置１２０６などを含む。当該メモリにコンピュータプログラムが記憶され、当該プロセッサーは、コンピュータプログラムによって上記のいずれか一項の方法実施例におけるステップを実行するように設置される。

任意選択で、本実施例では、上記の電子装置は、コンピュータネットワークの複数のネットワークデバイスのうちの少なくとも１つのネットワークデバイスに位置してもよい。

任意選択で、本実施例では、上記の伝送装置１２０６は、ターゲットシーケンスデータを取得し、前記ターゲットシーケンスデータは、時系列でソートされたＮ組のデータを含み、前記Ｎが１より大きい。

上記のプロセッサーは、コンピュータプログラムによって、次のステップを実行するように設置される。
前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルの前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルの前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得し、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数である。

任意選択で、当業者は、図１２に示す構成が例示に過ぎず、電子装置がスマートフォン（例えば、Ａｎｄｒｏｉｄフォン、ｉＯＳフォンなど）、タブレットコンピュータ、パームトップコンピュータ、及びモバイルインターネットデバイス（ＭｏｂｉｌｅＩｎｔｅｒｎｅｔＤｅｖｉｃｅｓ，ＭＩＤ）、ＰＡＤなどの端末デバイスであってもよいことを理解すべきである。図１２は、上記の電子装置の構造を制限するものではない。例えば、電子装置は、図１２に示すよりも多いまたは少ないコンポーネント（例えば、ネットワークインターフェースなど）を含み得るか、または図１２に示すものとは異なる配置を有し得る。

メモリ１２０４は、ソフトウェアプログラム及びモジュール、例えば、本出願の実施例におけるデータ処理方法及び装置に対応するプログラム指令／モジュールを記憶する。プロセッサー１２０２は、メモリ１２０４に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各機能アプリケーション及びデータ処理を実行し、即ち、上記のデータ処理方法を実現する。メモリ１２０４は、高速ランダムメモリを含み得、１つ又は複数の磁気記憶装置、フラッシュメモリ、又は他の不揮発性固体メモリなどの不揮発性メモリを含み得る。特定の例では、メモリ１２０４は、プロセッサー１２０２に対して遠隔的に設置されるメモリをさらに含み得、これらのリモートメモリは、ネットワークを介して端末に接続され得る。上記のネットワーク例は、インターネット、企業イントラネット、ローカルネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

上記の伝送装置１２０６は、１つのネットワークを介してデータを送受信する。上記のネットワークの具体例は、有線ネットワークおよび無線ネットワークを含む。一例では、伝送装置１２０６は、１つのネットワークアダプタ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ、ＮＩＣ）を含む。このネットワークアダプタは、ネットワークケーブルを介して他のネットワークデバイスやルーターに接続でき、インターネット又はローカルネットワークと通信できる。一例では、伝送装置１２０６は、無線周波数（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ，ＲＦ）モジュールであり、無線方式でインターネットと通信する。

上記の本出願の実施例の番号は、説明のためのものであり、実施例の利点および欠点を表すものではない。

上記の実施例における集積ユニットがソフトウェア機能ユニットの形で実現され、独立した製品として販売又は使用される場合、上記のコンピュータ可読記憶媒体に記憶できる。このような理解に基づいて、本出願の技術案は、本質的に、または既存の技術に寄与する部分、又は当該技術案の全て又は一部は、ソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品は、記憶媒体に記憶し、１つ又は複数のコンピュータデバイス（パーソナルコンピュータ、サーバー又はネットワークデバイスなど）に本出願の各実施例に記載される方法のステップの全て又は一部を実行させるための若干の指令を含む。

本出願の上記の実施例では、各実施例についての説明は、それぞれ独自の焦点を持っている。ある実施例で詳細に説明していない部分については、他の実施例の関連説明を参照することができる。

本出願に提供されるいくつかの実施例では、開示のクライアントは、他の方式でも実現できる。以上の装置の実施例は、例示に過ぎない。例えば、前記ユニットの分割は、論理機能分割に過ぎず、実際に実現する場合、他の分割方式もある。例えば、複数のユニット又はコンポーネントを結合したり、別のシステムに集積したり、一部の機能を無視したり、実行しなかったりすることができる。また、記載又は議論された相互結合または直接結合または通信接続は、特定のインターフェース、ユニットまたはモジュールを介する間接結合または通信接続であり得て、電気または他の形態であり得る。

前記の個別部品として説明したユニットは、物理的に分離されても分離されなくてもよく、ユニットとして表示した部品は、物理ユニットであってもそうでなくてもよく、即ち、１つの場所に配置してもよく、複数のネットワークユニットに分散してもよい。実際のニーズに応じて、ユニットのいくつかまたはすべてを選択して、本実施例の目的を実現することができる。

また、本出願の各実施例における各機能ユニットは、１つの処理ユニットに集積されてもよく、各ユニットが物理的に単独で存在してもよく、２つ以上のユニットが１つのユニットに集積されてもよい。上記の集積ユニットは、ハードウェアの形で実現されてもよく、ソフトウェア機能ユニットの形で実現されてもよい。

以上は、本出願の好ましい実施形態に過ぎない。なお、当業者にとって、本出願の原理から逸脱することなく、若干の改善および修正を行うことができ、これらの改善および修正も本出願の保護範囲と見なす。

１０２端末デバイス
１０４ネットワーク
１０６サーバー
１１０２通信モジュール
１１０４処理モジュール
１２０２プロセッサー
１２０４メモリ
１２０６伝送装置

Claims

サーバーによって実行されるデータ処理方法であって、
ターゲットシーケンスデータを取得するステップであって、前記ターゲットシーケンスデータは、時系列でソートされたＮ組のデータを含み、前記Ｎが１より大きいステップと、
前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得するステップであって、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数であり、
ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記Ｎ組のデータのうち第ｉ組のデータ及び前記ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果を処理し、第２の特徴情報を取得するステップと、
前記ターゲット処理モデルにおける第１のゲートを使用して、前記第２の特徴情報及び第３の特徴情報を処理し、第１の特徴情報を取得するステップであって、前記第１の特徴情報は、前記第ｉ＋１組のデータの組内特徴情報であり、前記第３の特徴情報は、前記第ｉ組のデータの組内特徴情報であり、前記第１のゲートは、前記第２の特徴情報の前記第１の特徴情報として出力される割合、及び前記第３の特徴情報の前記第１の特徴情報として出力される割合を制御するステップと、
前記第１の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理するステップと
を含むステップと、
を含む方法。
前記第１の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理する前記ステップは、
第２のゲートを使用して、前記第１の特徴情報及び前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、ターゲットパラメータを取得するステップであって、前記第２のゲートは、前記第１の特徴情報の前記ターゲットパラメータとして出力される割合及び前記ｊ＋１番目のデータの前記ターゲットパラメータとして出力される割合を制御するステップと、
前記ターゲットニューラルネットワークモデルを使用して、前記ターゲットパラメータを処理するステップと、
を含む請求項１に記載の方法。
前記ターゲットシーケンスデータを取得した後、前記方法は、
ターゲットスライディングウィンドウを使用して、ターゲットステップサイズに応じて前記ターゲットシーケンスデータでスライドし、前記Ｎ組のデータを取得するステップをさらに含む請求項１または２に記載の方法。
ターゲットシーケンスデータを取得する前記ステップは、
ターゲットビデオデータを取得するステップであって、前記ターゲットビデオデータは、時系列にソートされたＮ組のビデオフレームグループを含み、前記ターゲットビデオデータは、前記ターゲットビデオデータ内のターゲットオブジェクトにより実行されるアクションを認識するためのものであるステップを含み、
前記方法は、
前記Ｎ組のビデオフレームグループにおける少なくとも１つのビデオフレームグループの少なくとも一フレームのビデオフレームへの処理結果に従って、第１の確率情報を決定するステップであって、前記第１の確率情報は、前記ターゲットオブジェクトによって実行されるアクションがそれぞれ参照アクションセットのうち各参照アクションである確率を示すステップと、
前記第１の確率情報に従って、前記ターゲットオブジェクトによって実行されるアクションが前記参照アクションセットのうちターゲットアクションであると決定するステップと、
をさらに含む請求項１～３のいずれか一項に記載の方法。
ターゲットシーケンスデータを取得する前記ステップは、
ターゲットテキストデータを取得するステップであって、前記ターゲットテキストデータは、少なくとも１つのセンテンスを含み、前記少なくとも１つのセンテンスは、前後順序を有するＮ個のフレーズを含み、前記ターゲットテキストデータは、前記ターゲットテキストデータが表す感情タイプを認識するためのものであるステップを含み、
前記方法は、
前記Ｎ個のフレーズのうち少なくとも１つのフレーズにおける少なくとも１つの単語の処理結果に従って、第２の確率情報を決定するステップであって、前記第２の確率情報は、前記ターゲットテキストデータが表す感情タイプがそれぞれ参照感情タイプセットにおける各参照感情タイプである確率を示すステップと、
前記第２の確率情報に従って、前記ターゲットテキストデータが表す感情タイプが前記参照感情タイプセットにおけるターゲット感情タイプであると決定するステップと、
をさらに含む請求項１～３のいずれか一項に記載の方法。
データ処理装置であって、
時系列でソートされたＮ組のデータを含むターゲットシーケンスデータを取得するための通信モジュールであって、前記Ｎが１より大きい通信モジュールと、
前記Ｎ組のデータのうち第ｉ組のデータ、ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果、及び前記ターゲットニューラルネットワークモデルによる第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理し、前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおける前記ｊ＋１番目のデータへの処理結果を取得するための処理モジュールであって、前記ｉは１以上Ｎ未満であり、前記ｊは１以上Ｑ未満であり、前記Ｑは前記第ｉ＋１組のデータにおけるデータの数であり、
ターゲット処理モデルにおけるターゲット自己注意モデルを使用して、前記Ｎ組のデータのうち第ｉ組のデータ及び前記ターゲットニューラルネットワークモデルによる前記第ｉ組のデータへの処理結果を処理し、第２の特徴情報を取得し、
前記ターゲット処理モデルにおける第１のゲートを使用して、前記第２の特徴情報及び第３の特徴情報を処理し、第１の特徴情報を取得し、前記第１の特徴情報は、前記第ｉ＋１組のデータの組内特徴情報であり、前記第３の特徴情報は、前記第ｉ組のデータの組内特徴情報であり、前記第１のゲートは、前記第２の特徴情報の前記第１の特徴情報として出力される割合、及び前記第３の特徴情報の前記第１の特徴情報として出力される割合を制御し、
前記第１の特徴情報、及び前記ターゲットニューラルネットワークモデルによる前記第ｉ＋１組のデータにおけるｊ番目のデータへの処理結果に従って、前記ターゲットニューラルネットワークモデルを使用して、前記第ｉ＋１組のデータにおけるｊ＋１番目のデータを処理する処理モジュールと、
を含む装置。
電子装置であって、メモリ及びプロセッサーを含み、前記メモリにコンピュータプログラムが記憶され、前記プロセッサーは、前記コンピュータプログラムによって請求項１～５のいずれか一項に記載の方法を実行するように設置される電子装置。
指令を含むコンピュータプログラムであって、
前記コンピュータプログラムがコンピュータで実行される場合、前記コンピュータに、請求項１～５のいずれか一項に記載のデータ処理方法を実行させるコンピュータプログラム。