JP2023502860A

JP2023502860A - 情報処理方法、装置、コンピュータプログラム及び電子装置

Info

Publication number: JP2023502860A
Application number: JP2022523836A
Authority: JP
Inventors: チャン，ティエンユアン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-02-11
Filing date: 2020-11-06
Publication date: 2023-01-26
Anticipated expiration: 2040-11-06
Also published as: CN111282267B; JP7399277B2; KR20220080191A; WO2021159779A1; US20220176248A1; CN111282267A

Abstract

【要約】本出願の実施例は人工知能の技術分野に関して、特に、情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置に関する。当該情報処理方法は、ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連付けたモデルゲーム状態情報を取得するステップと、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む。

Description

（関連出願の参照）
本出願は、出願番号が２０２０１００８６２９１.６であり、出願日が２０２０年０２月１１日である中国特許出願に基づき提出されるとともに、当該中国特許出願の優先権を主張して、当該中国特許出願の全ての内容は本出願に援用される。

（技術分野）
本出願は、人工知能技術分野、及び機械学習技術に関して、特に、情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置に関する。

電子ゲームには、一般的に人間のゲーム行為を真似ることができるゲーム人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）が配置され、ゲームＡＩは仮想プレイヤーとしてゲームプロセスに参加して、リアルゲームユーザとインタラクションを行って、ユーザがゲームのルールを理解するのを助けたり、ゲーム中にユーザにゲームの決定の提案を提供したりし、また、電子ゲームに対して自動化テストを行う。

電子ゲーム産業の発展に連れて、電子ゲームにおけるゲーム内容要素のタイプ及び数量はますます多くなり、ゲーム環境状態もますます複雑になる。多様化且つだんだん複雑になるゲーム内容及びゲーム環境に直面して、ゲームＡＩはリアルユーザの行動習慣に準拠したり、ユーザの期待に応えたりするゲームの行動を決定することは、多くの場合困難であり、一般的に、知能化のレベルが低く、決定能力が悪いなどの問題が生じる

本出願の実施例は、ゲームＡＩの決定能力を向上させ、ゲームＡＩにより高い擬人化効果及び知能化レベルを具備させるための情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を提供する。

本出願の実施例は情報処理方法を提供し、当該方法は、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、
モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む。

本出願の実施例は情報処理装置をさらに提供し、当該装置は、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュールと、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュールと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュールと、
モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュールと、を含む。

本出願の実施例はコンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムが記憶され、当該コンピュータプログラムはプロセッサに実行される場合、以上の技術案の情報処理方法を実現する。

本出願の実施例は電子装置をさらに提供し、当該電子装置はプロセッサと、プロセッサの実行可能な指令を記憶するように配置されるメモリと、を含み、プロセッサは実行可能な指令を実行することで、以上の技術案の情報処理方法を実行するように配置される。

本出願の実施例が提供する情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を利用して、ゲームシーンに対して特徴抽出を行うことで、シーン特徴を取得し、予めトレーニングされた行為モデルを利用してシーン特徴に対して分析決定を行って、候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択し、ユーザの期待に合うゲーム行為決定を取得する。ゲームに適用され、ゲームＡＩを設置する場合、ゲームのシーン特徴に基づき、モデルゲーム行為を選択するため、選択したモデルゲーム行為はゲームのシーンにより適応し、異なるゲームシーンに対して、相応的なモデルゲーム行為を選択し、ゲームＡＩが実施するゲーム行為を豊かにして、ゲームＡＩの決定能力を大幅に向上させ、ゲームＡＩに、より高い擬人化効果及び知能化レベルを具備させ、マンマシンインタラクション効率を向上させる。

本出願の実施例が提供する例示的なシステムアーキテクチャ概略図である。本出願の実施例が提供するジェネレーティブな敵対的模倣学習原理の概略図である。本出願の実施例が提供するジェネレーティブな敵対的模倣学習のモデルアーキテクチャ概略図である。本出願の実施例が提供する、ゲーム行為決定を行うための情報処理方法のフロー概略図である。本出願の実施例が提供する、ゲームシーンに対して特徴抽出を行うフロー概略図である。本出願の実施例が提供する、行為モデルを利用して特徴マッピングを行うフロー概略図である。本出願の実施例が提供する、ε―ｇｒｅｅｄｙ法に基づき、モデルゲーム行為を選択するフロー概略図である。本出願の実施例が提供する、行為モデルに対してモデル最適化を行うフロー概略図である。本出願の実施例が提供する、行為モデルのネットワークアーキテクチャ概略図である。本出願の実施例が提供する、識別モデルのネットワークアーキテクチャ概略図である本出願の実施例が提供する情報処理装置の構成ブロック図である。本出願の実施例が提供する電子装置のコンピュータシステムの構成概略図である。

これから、図面を参照して、例示的な実施形態をより全面的に説明する。ただし、例示的な実施形態は多種の形態で実施できるため、ここに記載の例示に限定されず、逆に、これらの実施形態を提供することで、本出願の実施例をより全面且つ完全にして、例示的な実施形態の構想を全面的に当業者に伝達する。

また、記載の特徴、構成又は特性を任意の適切な方式で１つ又は複数の実施例に結合できる。以下の記載において、多くの細部を提供することで、本出願の実施例に対する十分な理解を与える。ただし、細部における１つ又は複数を特定しなくても、本出願の実施例の技術案を実践でき、又は他の方法、コンポーネント、装置、ステップなどを採用してもよい。他の場合、本出願の実施例の各態様が曖昧になることを避けるために、公知の方法、装置、実現又は操作を詳しく説明又は記載していない。

図面のブロック図は、必ずしも、物理的に独立したエンティティに対応するわけではなく、機能エンティティに過ぎず。即ち、これらの機能エンティティをソフトウェア形態で実現してもよく、或いは１つ又は複数のハードウェアモジュール又は集積回路において、これらの機能エンティティを実現してもよく、或いは異なるネットワーク及び／又はプロセッサ装置、及び／又はマイクロコントローラ装置において、これらの機能エンティティを実現してもよい。

図面のフローチャートは、必ずしも全ての内容及び行為／ステップを含まなければならないわけではなく、記載の順序に従って実行しなければならないわけではなく、例示的な説明である。例えば、ある操作／ステップを分解してもよいし、ある操作／ステップを結合するか、又は部分的に結合してもよいため、実際の状況に応じて、実際の実行順序は変更する可能性がある。

当分野の関連技術において、人工知能技術に基づき、電子ゲームにゲームＡＩを配置することは、電子ゲーム産業の普遍のやり方になっている。例えば、ゲームＡＩはゲームティーチングで、ユーザにゲームルールのティーチング及びガイダンスを提供でき、また、ゲームプレイ中にユーザにゲーム提案を提供でき、仮想プレイヤーとしてマンマシン対戦を実現でき、又はゲームの開発過程で自動化テストなどを行う。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御されるマシンを利用して、人の知能を真似、延伸及び拡張し、環境を感知し、知識を取得して、知識を利用して最適な結果を取得する理論、方法、技術及び応用システムである。言い換えると、人工知能はコンピュータ科学の綜合技術であり、知能の実質を了解して、人間の知能に類似する方式で反応できる新たなスマートマシンを生成しようとする。人工知能は、各種のスマートマシンの設計原理及び実現方法を研究して、マシンに感知、推理及び決定の機能を具備させる。

人工知能技術は綜合学科であり、幅広い分野に関わり、ハードウェア層面の技術もあれば、ソフトウェア層面の技術もある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分布式記憶、ビッグデータ処理技術、操作／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主に、コンピュータ視覚技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの方向を含む。

機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、多分野交差学科であり、確率論、統計学、近似理論、凸解析、計算複雑性理論などの複数の学科に関わる。新たな知識又はスキルを取得するために、コンピュータが人間の学習行為を如何に真似して又は実現するかを専門に研究して、既存の知識構成を改めて組織することで、その自体のパフォーマンスを改善する。機械学習は人工知能の核心であり、コンピュータに知能を具備させる根本的な方法であり、その応用は人工知能の各分野に及んでいる。機械学習及び深層学習は一般的に、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、ティーチング学習などの技術を含む。

機械学習又は深層学習によってゲームＡＩをトレーニングすることで、リアルユーザのゲーム決定行為を真似でき、ゲームＡＩの決定能力を向上させ、人間行為論理に合う効果的な決定をさせることができる。ただし、ルールが複雑且つ多様である電子ゲームにとって、大量のトレーニング時間及び計算リソースを掛けても、よいトレーニング効果を取得し難い。

ターン制ロールプレイングゲームを例として、一部のゲームにおけるノンプレイヤーキャラクタ（Ｎｏｎ―ＰｌａｙｅｒＣｈａｒａｃｔｅｒ、ＮＰＣ）は、ほとんど決定ツリーを確立して、スキルの自動化なリリースを実現する。決定ツリーアルゴリズムは、関連特徴を選択することによって、ツリー構成を確立し、各親世代のサブノードは、当該ノードが有するスキルリリース戦略を代表する。当該技術は小サンプルデータ自体に限定され、生じるゲーム行為戦略は固定且つ単一であり、スキルの選択及びリリースはランダム的であり、知能化程度が低くて、トレーニングセットでの表現がよいが、リアルゲーム環境での戦略表現が悪いという現象がよくあり、ひどい過剰適合現象が存在する。リアルゲームユーザと多人数対戦を行う場合、このようなゲームＡＩのスキルリリース戦略、即ち、実行するゲーム行為は一般的に単一且つ固定であり、現在のゲームシーンと適さず、ゲームＡＩの知能化程度が低いため、マンマシンインタラクション効率が低い。

以上の技術案の問題について、本出願の実施例は、ゲームＡＩの知能化レベルを著しく向上させることができる情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を提供する。

図１は、本出願の技術案を適用する例示的なシステムアーキテクチャ概略図を模式的に示す。

図１に示すように、システムアーキテクチャ１００は、クライアント１１０、ネットワーク１２０及びサーバ１３０を含む。クライアント１１０はスマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータなどの各種の端末装置を含む。サーバ１３０はネットワークサーバ、アプリケーションサーバ、データベースサーバなどの各種のサーバ装置を含む。ネットワーク１２０は、クライアント１１０とサーバ１３０との間で通信リンクを提供できる各種の接続タイプの通信媒体であってもよく、例えば、有線通信リンク、無線通信リンクなどであってもよい。

実現の必要に応じて、本出願の実施例のシステムアーキテクチャは、任意数のクライアント、ネットワーク及びサーバを具備してもよい。例えば、サーバ１３０は複数のサーバ装置からなるサーバグループであってもよく、サーバ装置は、計算できる任意のハードウェア装置を含んでもよいが、限定されず、例えば、独立した物理サーバ、複数の物理サーバからなるサーバクラスタ又は分散型システム、或いはクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、及びビッグデータ及び人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供できるクラウドサーバであってもよい。また、本出願の実施例の技術案は、クライアント１１０、又はサーバ１３０に適用されてもよいし、クライアント１１０及びサーバ１３０によって共同で実現されてもよく、これに対して、本出願の実施例は特に限定しない。

例えば、クライアント１１０に搭載されるゲームアプリケーションプログラムによって、リアルゲームユーザのゲームデータを取り込んで、ネットワーク１２０を介してゲームデータをサーバ１３０にアップロードすることができる。サーバ１３０は、受信したゲームデータに基づき、機械学習モデルをトレーニングすることで、ユーザゲーム行為を真似して、ゲーム決定をするゲームＡＩモデルを取得できる。当該ゲームＡＩモデルは、クライアント１１０がアップロードしたゲームデータに基づき、ゲーム決定をして、１つのゲーム行為（例えば、スキルリリース行為）を選択して、行為選択情報をクライアント１１０に送信する。クライアント１１０は、サーバ１３０から戻ったゲーム行為選択情報に基づき、ゲームアプリケーションプログラムにおけるゲームキャラクタを制御して、相応的なゲーム行為を実施させる。

ターン制ロールプレイングゲームを例として、本出願が提供する技術案は、ＮＰＣキャラクタとしてのゲームＡＩの知能化スキルリリースをトレーニングできる。ターン制ロールプレイングゲームにおいて、ゲームユーザとＮＰＣキャラクタとのゲームシーンでのゲームキャラクタのスキルは、一般的に複数があり、且つ各ターンのスキルリリースは、現在ターンの各ゲームキャラクタの状態と関連するため、ＮＰＣキャラクタの対戦戦略学習の複雑さ及び困難さが高くて、ネットワークモデルが直接的にゼロから学習すると、コストが高い。本出願の実施例は模倣学習の考えに基づき、リアルゲームユーザのスキルリリースの行為を観察し、真似することで、対戦戦略を学習する。本出願の実施例は模倣学習に基づき、ジェネレーティブな敵対的学習の考えを導入することで、ジェネレーティブな敵対的模倣学習の方式で、ＮＰＣキャラクタとしてのゲームＡＩをトレーニングする。図２は、ジェネレーティブな敵対的模倣学習原理の概略図を模式的に示し、図２に示すように、リアルゲームユーザがゲームを実行することにより生じたユーザゲームデータセット

は、ある分布に服従すると仮定し、ユーザゲームデータ

であり、

はリアルゲームユーザの対応するゲーム行為主体（例えば、ゲームユーザが制御するゲームキャラクタ）の、ゲームシーンでのユーザゲーム状態を示し、

は、相応的なユーザゲーム状態に直面する場合、リアルゲームユーザによるユーザゲーム行為を示す。本出願の実施例において、行為モデルＡｃｔｏｒとゲームシーンとの連続的なインタラクションによって、リアルゲームユーザのゲーム行為を真似するモデルゲームデータセット

を生成でき、そのうち、

であり、

は、行為モデルの対応するゲーム行為主体（例えば、ＮＰＣキャラクタ）の、ゲームシーンでのモデルゲーム状態を示し、

は、相応的なモデルゲーム状態に直面する場合、行為モデルによるモデルゲーム行為を示す。ジェネレーティブな敵対的学習の方法で、モデルゲームデータセットはユーザゲームデータセットの確率分布にだんだん近接し、行為モデルＡｃｔｏｒを引き続いて学習することで、結果として、ユーザゲームデータの確率分布を学習できる。このように、行為モデルが出力するスキルリリース、及びキルターゲット選択などのゲーム行為は、リアルゲームユーザの行為により近接し、ゲームＡＩはより高い擬人化効果及び知能化レベルを具備して、マンマシンインタラクション効率を向上させる。

図３は、本出願の実施例が使用するジェネレーティブな敵対的模倣学習のモデルアーキテクチャ概略図を模式的に示す。図３に示すように、ジェネレーティブな敵対的模倣学習の過程で、行為モデルＡｃｔｏｒの学習目的は以下の通りであり、戦略πを引き続いて最適化することで、生成したモデルゲームデータセット

が、リアルゲームユーザのユーザゲームデータセット

の確率分布にできるだけ近接させ、これによって、モデルから入力されたデータがリアルゲームユーザのユーザゲームデータであるか、それとも行為モデルＡｃｔｏｒが生成したモデルゲームデータであるか、について、識別モデルＤｉｓｃｒｉｍｉｎａｔｏｒ（分別器）は区別できない。識別モデルＤｉｓｃｒｉｍｉｎａｔｏｒは、モデルから入力されたデータがユーザゲームデータであるか、それともモデルゲームデータであるか、をできるだけ区別することを学習目的とする。いくつかの実施例において、行為モデルＡｃｔｏｒの学習アルゴリズムは、深層強化学習における戦略勾配（ｐｏｌｉｃｙ
ｇｒａｄｉｅｎｔ）アルゴリズムを採用してパラメータを最適化し、識別モデルＤｉｓｃｒｉｍｉｎａｔｏｒは教師あり学習の分類アルゴリズムを採用して、パラメータを更新する。

本出願が提供する技術案を以下に詳しく説明する。ここで、以下の各実施例は主に、ターン制ロールプレイングゲームを例とするが、本出願の実施例はこれに限定されない。

図４は、本出願の実施例においてゲーム行為決定のための情報処理方法のフロー概略図を模式的に示し、いくつかの実施例において、電子装置により当該方法を実行し、電子装置は端末又はサーバーであってもよい。図４に示すように、当該方法は主に以下のステップを含み、
ステップＳ４１０：ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得する。

ゲーム行為主体は、ゲームシーンでゲーム行為を実行する主体オブジェクト、例えば、ゲームにおけるＮＰＣキャラクタであってもよく、当該ＮＰＣキャラクタは、ゲームユーザが制御する人物キャラクタと対戦できる。行為モデルは、予めトレーニングしたゲームＡＩモデルであり、ゲームシーンに基づき、ゲーム行為主体がゲーム行為を実行するように制御する。例えば、１つのＮＰＣキャラクタは８つの異なるゲームスキルを有し、当該８つのゲームスキルのリリースは、８つの異なるゲーム行為に属する。また、例えば、ＮＰＣキャラクタは多種の異なるタイプのゲーム道具、例えば、仮想武器、仮想品物などを使用でき、異なるタイプのゲーム道具の使用を、異なるタイプのゲーム行為としてもよい。

ステップＳ４２０：ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得する。

ゲーム行為主体がどんなゲーム行為を実施することは、ゲームシーンのシーン特徴と関連し、多種の異なるタイプのシーン特徴に対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得でき、シーン特徴は、例えば、ゲームキャラクタの職業、ヒットポイント、利用可能なスキルなどの情報を含む。特徴抽出により得られるモデルゲーム状態情報は、指定の長さを有する特徴ベクトル、例えば、３８次元のベクトルであってもよい。ゲームシーンに対するシーン特徴抽出の方法は、例えば、シーン特徴に対して符号化処理を行うことで符号化ベクトルを取得してから、符号化ベクトルと埋め込み行列とを乗算することで指定の長さを有する特徴ベクトルを取得することを含む。

ステップＳ４３０：行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得する。

行為モデルは、複数のネットワーク層を有するニューラルネットワークモデル、例えば複数の完全接続層が順次に接続された完全接続ネットワークモデルである。行為モデルにおける各ネットワーク層はいずれも１つのマッピング関数とみなすことができ、入力行為モデルのモデルゲーム状態情報に対して層ごとに特徴マッピング処理を行うことで、モデルゲーム行為選択情報を出力して取得できる。モデルゲーム行為選択情報は、少なくとも２つの候補ゲーム行為に対応する行為決定情報であり、例えば、行為モデルの分析決定により得られた各種の候補ゲーム行為の選択確率である。候補ゲーム行為は、例えば、ゲームシーンでゲーム行為主体がリリースできる異なるタイプのゲームスキルである。

ステップＳ４４０：モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択する。

モデルゲーム行為選択情報は、各種の候補ゲーム行為の選択確率であり、当該ステップにおいて、グリーディアルゴリズムを採用して、選択確率が最も高い１つの候補ゲーム行為をゲーム行為主体が実行するモデルゲーム行為とする。又は選択確率に従って、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行する１つのモデルゲーム行為をランダム的に選択してもよい。

本出願の実施例が提供する情報処理方法において、ゲームシーンに対して特徴抽出を行うことで、シーン特徴を取得し、予めトレーニングされた行為モデルを利用してシーン特徴に対して分析決定を行って、候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択し、ユーザの期待に合うゲーム行為決定を取得する。ゲームに適用されゲームＡＩを設置する場合、ゲームのシーン特徴に基づき、モデルゲーム行為を選択するため、選択したモデルゲーム行為はゲームのシーンにより適応し、異なるゲームシーンに対して、相応的なモデルゲーム行為を選択し、ゲームＡＩが実施するゲーム行為を豊かにして、ゲームＡＩの決定能力を大幅に向上させ、ゲームＡＩに、より高い擬人化効果及び知能化レベルを具備させ、マンマシンインタラクション効率を向上させる。

図５は、本出願の実施例において、ゲームシーンに対して特徴抽出を行うフロー概略図を模式的に示す。図５に示すように、以上の実施例に基づき、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップＳ４２０は以下のステップを含み、
ステップＳ５１０：ゲームシーンにおけるシーン状態情報、及びゲーム行為主体の主体状態情報を取得する。

シーン状態情報は、ゲームシーンにおけるシーン環境と関連する情報であり、主体状態情報は、ゲーム行為主体の自体ゲーム属性と関連する情報である。例えば、ターン制ロールプレイングゲームにおいて、シーン状態情報は現在対戦のターン数、対戦オブジェクトの分布位置などの環境情報を含み、主体状態情報はゲーム行為主体の職業、ヒットポイント、マジックポイントなどの属性情報を含む。

ステップＳ５２０：シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得する。

シーン状態情報は、多種の異なるタイプの環境情報を含み、各種の環境情報に対して特徴抽出をそれぞれ行うことで、複数のシーン特徴ベクトルを取得する。主体状態情報は、多種の異なるタイプの属性情報を含んでもよく、各種の属性情報に対して特徴抽出をそれぞれ行うことで、複数の主体特徴ベクトルを取得する。

ステップＳ５３０：シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得する。

指定の接合順序に従って、シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行った後、指定の長さを有する接合ベクトルを形成し、当該接合ベクトルを、ゲーム行為主体と関連するモデルゲーム状態情報とする。

シーン状態情報及び主体状態情報に対してそれぞれ特徴抽出を行うことで、多種の環境情報及び属性情報をカバーするモデルゲーム状態情報を取得でき、当該情報は複数の特徴次元を備える。複数の特徴次元に基づき行為決定をすることで、行為モデルの分析及び決定能力を向上させ、行為モデルの知能化レベルを高める。

図６は、本出願の実施例において、行為モデルによって特徴マッピングを行うフロー概略図を模式的に示す。図６に示すように、以上の実施例に基づき、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップＳ４３０は以下のステップを含み、
ステップＳ６１０：ゲーム行為主体と関連する少なくとも２つの候補ゲーム行為を決定する。

候補ゲーム行為は、ゲーム行為主体に選択し実行させるためのゲーム行為であり、例えば、ゲーム行為主体はあるゲームキャラクタである場合、候補ゲーム行為は、当該ゲームキャラクタによるあるゲームスキルのリリース、又はあるゲーム道具の使用であってもよい。

ステップＳ６２０：行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、各種の候補ゲーム行為の選択確率を取得する。

選択確率は、各種の候補ゲーム行為をモデルゲーム行為として選択する可能性を決定する。ある候補ゲーム行為の選択確率が高いほど、行為モデルが、当該候補ゲーム行為を実行するゲーム収益効果がよりよくと予測する。

ステップＳ６３０：各種の候補ゲーム行為の行為利用可能な状態情報を取得し、行為利用可能な状態情報に基づき、候補ゲーム行為に対応する行為選別情報を決定する。

行為利用可能な状態情報は、現在ゲームシーンにおいて各種の候補ゲーム行為が利用可能であるかどうかを示し、各種の候補ゲーム行為の行為利用可能な状態情報に基づき、対応する行為選別情報を決定できる。行為選別情報は指定の長さを有する１つの選別ベクトルであり、当該選別ベクトルの長さは候補ゲーム行為の数である。例えば、８つの候補ゲーム行為は、１つの８次元の選別ベクトルに対応する。選別ベクトルにおける各要素の値を０又は１としてもよく、値が０であると、対応する候補ゲーム行為を選択して実行できないことを示し、値が１であると、対応する候補ゲーム行為を選択し実行できることを示す。

ステップＳ６４０：行為選別情報に基づき、候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とする。

行為選別情報に基づき、候補ゲーム行為が利用可能な行為であるか、それとも利用不能な行為であるかを決定でき、利用可能な行為は、実行対象として選択できるゲーム行為であり、利用不能な行為は、実行対象として選択できないゲーム行為である。候補ゲーム行為が利用可能な行為であると、その選択確率をそのまま保持する。候補ゲーム行為が利用不能な行為であると、その選択確率を所定確率、例えば０又は０に近接する極小値に調整する。

行為選別情報を取得し、行為選別情報に基づき、選択確率を調整するように、候補ゲーム行為をフィルタリングすることで、行為モデルの決定精度を向上させ、無効行為決定の出現を避ける。

取得したゲーム行為選択情報に基づき、異なる行為選択戦略を採用して、モデルゲーム行為を選択する。図７は、本出願の実施例において、ε―ｇｒｅｅｄｙ戦略に基づきモデルゲーム行為を選択するフロー概略図を模式的に示す。

図７に示すように、以上の各実施例に基づき、ゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップＳ４４０は以下のステップを含み、
ステップＳ７１０：ランダム行為選択戦略の第１の確率及び高確率行為選択戦略の第２の確率をそれぞれ決定する。

ランダム行為選択戦略及び高確率行為選択戦略は、２つの異なるゲーム行為選択戦略である。ランダム行為選択戦略は、等確率ランダム選択の方式に従って、モデルゲーム行為として、多種の候補ゲーム行為から１つを選択する。高確率行為選択戦略は、多種の候補ゲーム行為から、選択確率が最も高い１つの候補ゲーム行為をモデルゲーム行為とする。例えば、ランダム行為選択戦略の第１の確率がεであれば、相応的に、高確率行為選択戦略の第２の確率を１―εに決定する。

ステップＳ７２０：第１の確率及び第２の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定する。

毎回モデルゲーム行為を選択する前に、第１の確率及び第２の確率に基づき、モデル選択戦略を決定する。例えば、εの値を０.１にする場合、モデル選択戦略としてランダム行為選択戦略を採用する確率が１０%であり、高確率行為選択戦略を採用する確率が９０%である。また、例えば、εの値を０.０１にする場合、モデル選択戦略として、ランダム行為選択戦略を採用する確率が１%であり、高確率行為選択戦略を採用する確率が９９%である。

ステップＳ７３０：モデル選択戦略がランダム行為選択戦略であれば、モデルゲーム行為として、少なくとも２つの候補ゲーム行為から１つの候補ゲーム行為をランダムに選択する。

モデル選択戦略がランダム行為選択戦略であれば、当該ステップは等確率ランダム選択方式を採用して、モデルゲーム行為として、多種の候補ゲーム行為から１つの候補ゲーム行為をランダムに選択することができる。

ステップＳ７４０：モデル選択戦略が高価値行為選択戦略であれば、モデルゲーム行為として、少なくとも２つの候補ゲーム行為から、行為価値が最も高い１つの候補ゲーム行為を選択する。

ここで、高価値行為選択戦略を説明する。本出願の実施例において、高価値行為選択戦略は、モデルゲーム行為を決定するための戦略であり、各候補ゲーム行為の行為価値を取得し、行為価値の高さに従って、モデルゲーム行為として、少なくとも２つの候補ゲーム行為から、行為価値が最も高い１つの候補ゲーム行為を選択する。

実際に実施する場合、候補ゲーム行為に対応する行為価値を評価することで、候補ゲーム行為に対応する行為価値の高さを判断し、いくつかの実施例において、候補ゲーム行為に対応する行為価値は、当該候補ゲーム行為を実施した後取得したスコアに従って決定でき、スコアは、殺傷力指数、又は取得した奨励によって表徴でき、例えば、候補ゲーム行為Ａが具備する殺傷力指数は９５であり、候補ゲーム行為Ｂが具備する殺傷力指数は８０であり、候補ゲーム行為Ｃが具備する殺傷力指数は６５であれば、高価値行為選択戦略に従って、モデルゲーム行為として、行為価値が最も高い（殺傷力指数が最も高い）候補ゲーム行為Ａを選択する。また、例えば、候補ゲーム行為Ｄを実施した後取得した奨励は１００仮想通貨であり、候補ゲーム行為Ｅを実施した後取得した奨励は２００仮想通貨であり、候補ゲーム行為Ｆを実施した後取得した奨励は１５０仮想通貨であれば、高価値行為選択戦略に従って、モデルゲーム行為として、行為価値が最も高い（奨励が最も高い）候補ゲーム行為Ｅを選択する。

現在選択戦略が高確率行為選択戦略であれば、当該ステップは、選択確率が最も高い候補ゲーム行為をモデルゲーム行為とする。例えば、３つの候補ゲーム行為として、ゲームスキルＡのリリース、ゲームスキルＢのリリース及びゲームスキルＣのリリースについて、その選択確率は順次に７０%、２０%及び１０%であり、そうすれば、当該ステップは選択確率が最も高いゲームスキルＡのリリースをモデルゲーム行為とする。

本出願の実施例は、ε―ｇｒｅｅｄｙ戦略を利用してモデルゲーム行為を選択し、異なる行為選択戦略に対して相応的なモデルゲーム行為の選択を実行することで、行為モデルの最適化持続能力を向上させ、さらに、行為モデルの、モデルゲーム行為に対する選択精度を高める。

実際の応用において、リアルゲームユーザのユーザゲームデータを引き続いて取り込んで、行為モデルのモデルゲームデータを取得することで、行為モデルに対してパラメータ更新及び最適化を持続的に行うことができる。図８は、本出願の実施例において、行為モデルに対してモデル最適化を行うフロー概略図を模式的に示す。図８に示すように、以上の各実施例に基づき、行為モデルに対してモデル最適化を行う方法は以下のステップを含み、
ステップＳ８１０：モデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成する。

当該ステップにおいて、まず、１つのゲームシーン内の少なくとも１つのゲームラウンド（例えば、ターン制ゲームにおける１つのゲームターン）を決定して、各ゲームラウンドのゲーム順番情報を取得する。

そして、１つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成する。

最後、ゲーム順番情報に基づき、各ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、モデル決定情報ペアシーケンスを、ゲームシーンに対応するモデルゲームサンプルとする。

モデル決定情報ペアシーケンスをモデルゲームサンプルとすることで、サンプルの表徴能力を向上させ、トレーニング過程で、複数の連続行為の間の内在関連特徴をよりよく学習し、よりよいモデルトレーニング効果を取得できる。

例えば、１つのゲームシーンに３つのゲームラウンドが含まれると、各ゲームラウンドは相応的に、モデル決定情報ペア（ｓ_１、ａ_１）、（ｓ_２、ａ_２）、及び（ｓ_３、ａ_３）をそれぞれ決定できる。Ｓはモデルゲーム状態情報を示し、ａはモデルゲーム行為情報を示す。当該３つのモデル決定情報ペアは、ゲームラウンドの先後順序に従って配列されることで、１つのモデル決定情報ペアシーケンス{ｓ_１、ａ_１、ｓ_２、ａ_２、ｓ_３、ａ_３}を構成でき、当該モデル決定情報ペアシーケンスを、当該ゲームシーンに対応するモデルゲームサンプルとする。

ステップＳ８２０：ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定する。

行為モデルの模倣学習オブジェクトとして、当該ステップは、ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲームサンプルを取得する。

モデルゲームサンプルの取得方式に類似して、当該ステップは、まず、ユーザゲームデータに基づき、１つのゲームシーン内の少なくとも１つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得する。

そして、１つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成する。

最後、ゲーム順番情報に基づき、各ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、ユーザ決定情報ペアシーケンスを、ゲームシーンに対応するユーザゲームサンプルとする。

ステップＳ８３０：モデルゲームサンプル及びユーザゲームサンプルをトレーニングサンプルとし、トレーニングサンプルを識別モデルに入力する。

いくつかの実施例において、当該ステップはトレーニングサンプルに対してベクトル化処理を行って、識別モデルに入力する方法は以下のステップを含み、
ゲーム状態情報（モデルゲーム状態情報又はユーザゲーム状態情報であってもよい）に対応する第１の特徴ベクトル、及びゲーム行為情報（モデルゲーム行為情報又はユーザゲーム行為情報であってもよい）に対応する第２の特徴ベクトルを取得する。例えば、第１の特徴ベクトルは、３８次元ベクトルであり、第２の特徴ベクトルは、８次元ベクトルである。

第１の特徴ベクトル及び第２の特徴ベクトルに対して接合処理を行うことで、決定情報ペア（モデル決定情報ペア又はユーザ決定情報ペアであってもよい）のサンプル特徴ベクトルを取得する。サンプル特徴ベクトル、例えば、第１の特徴ベクトルが前にあり、第２の特徴ベクトルが後ろにあるという順序に従って接合された４６次元ベクトルである。

ゲーム順番に従って、トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力する。

トレーニングサンプルにおける決定情報ペアに対してベクトル化処理を行うことで、形式が統一されたサンプル特徴ベクトルを取得でき、そして、順次に識別モデルに入力することで、識別モデルの識別効率を向上させ、モデルのトレーニング効率を高めるとともに、計算リソースの消費を低減させる。

ステップＳ８４０：識別モデルがトレーニングサンプルに対してマッピング処理を行うことで、サンプル識別情報を取得する。

サンプル識別情報は、トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するための情報である。

いくつかの実施例において、当該ステップにおいてサンプル識別情報を取得する方法は、以下のステップを含み、
トレーニングサンプルにおける決定情報ペアの情報ペア数を取得する。例えば、情報ペア数はＴである。

識別モデルが各決定情報ペアのサンプル特徴ベクトルに対してマッピング処理を行うことで、各決定情報ペアの情報ペア分類確率を取得する。例えば、各決定情報ペアの情報ペア分類確率はそれぞれｄ_ｔであり、ｔの値は１～Ｔである。

情報ペア数及び情報ペア分類確率に基づき、トレーニングサンプルのサンプル分類確率を決定し、サンプル分類確率をサンプル識別情報とする。例えば、各情報ペア分類確率の平均値

を直接的にサンプル分類確率とする。サンプル分類確率が０.５より大きいと、トレーニングサンプルをユーザゲームサンプルに識別できる。サンプル分類確率が０.５以下であると、トレーニングサンプルをモデルゲームサンプルに識別できる。

いくつかの決定情報ペアの情報ペア分類確率に基づき、サンプル分類確率を算出し、識別モデルの識別正確率を向上させ、識別結果の異常を避ける。

ステップＳ８５０：サンプル識別情報に基づき、行為モデルと識別モデルとのモデルパラメータを更新する。

行為モデル及び識別モデルは、ジェネレーティブな敵対的ネットワークを構成でき、敵対的過程で、両者のモデルパラメータを継続的に更新する。識別モデルは自体の識別能力をできるだけ向上させ、モデルパラメータに対する更新及び最適化によって、サンプル識別情報の正確さを向上させる。行為モデルは自体の模倣能力をできるだけ向上させ、モデルパラメータに対する更新及び最適化によって、ユーザゲームサンプルの確率分布に近接するモデルゲームサンプルを出力して、識別モデルがトレーニングサンプルのサンプルタイプを正確に識別し難いようにする。敵対的学習を利用してモデルパラメータに対して反復更新を行うことで、リアルゲームユーザの決定行為特点に近接する行為モデルを取得できる。

いくつかの実施例において、当該ステップにおいて、まず、ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待が含まれる目的関数を決定し、そして、サンプル識別情報及び目的関数に基づき、行為モデルと識別モデルとのモデルパラメータを交互に更新する。

実際に実施する場合、行為モデル及び識別モデルは敵対的ゲームの方式でパラメータを更新し、両者の共同の目的関数は、ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待を含む。例えば、ユーザサンプル期待は、

として示し、モデルサンプル期待は、

として示す。

はユーザゲームサンプルの確率分布を示し、

は、ユーザゲームサンプルの、識別モデルでのサンプル分類確率を示す。

は、モデルゲームサンプルの確率分布を示し、

は、モデルゲームサンプルの、識別モデルでのサンプル分類確率を示す。

行為モデルと識別モデルとのパラメータ更新過程は交互に行われてもよい。例えば、行為モデルのモデルパラメータを１回更新した後、識別モデルのモデルパラメータをすぐに１回更新し、このように交互に往復して、モデルパラメータの反復更新を継続的に行う。また、例えば、モデルのトレーニング効率を向上させるために、行為モデルに対して、反復更新を連続的に複数回行ってから、識別モデルを１回更新してもよい。

識別モデルは、トレーニングサンプルにおけるユーザゲームサンプル及びモデルゲームサンプルをできるだけ正確的に識別することを、トレーニング目的とする。そのため、識別モデルによるトレーニングラウンドで、行為モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、識別モデルのモデルパラメータを更新して、ユーザゲームサンプルのサンプル分類確率を大きくして、モデルゲームサンプルのサンプル分類確率を低減させる。

行為モデルは、識別モデルがトレーニングサンプルにおけるユーザゲームサンプル及びモデルゲームサンプルを正確に識別し難いように、識別モデルをできるだけ騙すことを、トレーニング目的とする。そのため、行為モデルによるトレーニングラウンドで、識別モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、行為モデルのモデルパラメータを更新して、モデルゲームサンプルのサンプル分類確率を大きくする。

本出願の実施例が提供する、行為モデルに対するモデル最適化方法において、ジェネレーティブな敵対的模倣学習を利用してリアルゲームユーザのゲームデータから、ユーザゲームサンプルの確率分布を学習し、リアルゲームユーザ行為特点に近接するか、又はリアルゲームユーザ行為期待に合うゲーム行為戦略とするように、行為モデルを導く。ジェネレーティブな敵対的模倣学習によるトレーニング方法は、モデルトレーニング過程における計算リソースの消費を低減させる上に、モデルのトレーニング効率を向上させ、よりよいトレーニング効果を取得できる。

以下は、１ターン制ゲームの応用シーンを結合して以上の実施例の行為モデルのトレーニング方法を説明する。

図９は、本出願の実施例で使用する行為モデルのネットワークアーキテクチャ概略図を模式的に示す。図９に示すように、当該行為モデルは主に多層感知ネットワーク構成であり、モデルの入力は、現在のゲームターンのゲーム状態特徴Ｓｔａｔｅである。例えば、ゲーム状態特徴Ｓｔａｔｅは３８次元の特徴ベクトルとして示し、それに関する情報は、例えば、以下を含み、
ａ）キャラクタの基本的な属性、例えば、ヒットポイント、物理攻撃、魔法攻撃、魔法、治療、物理防御、魔法防御、速度、封印命中、封印対抗など。
ｂ）キャラクタの職業。
ｃ）対戦の陣形特徴。
ｄ）現在対戦のターン数。
ｅ）現在利用可能なスキル。

行為モデルの構成全体は主に、次元がそれぞれ１０２４、５１２、２５６である３つの完全接続層ＦＣ９１０、ＦＣ９２０及びＦＣ９３０と、出力ベクトル次元が８である１つの完全接続出力層９４０を含み、完全接続出力層９４０は合計、８種類のゲームスキルｓｋｉｌｌ_１、ｓｋｉｌｌ_２……ｓｋｉｌｌ_８の選択確率を出力できる。完全接続出力層９４０から出力された８次元ベクトルと、次元が８である１つのスキル選別ベクトル９５０とを乗算し、結果として、出力ベクトル次元が８であるスキル出力層９６０を取得し、スキル出力層９６０から出力された結果は、ゲームにおけるゲームキャラクタの各スキルの、当該ターンでのリリースの確率分布である。

完全接続出力層９４０の出力ベクトル次元は８であると、ゲームキャラクタのスキルが８種類以下であることを意味する。ターン制ゲームにおいて、あるターンで、ゲームキャラクタのあるスキルをリリースした後、別の効果を有し、例えば、プレイヤーを休憩状態に入れさせて、次のターンでスキルをリリースできず、又は、ゲームキャラクタのヒットポイントがある状態の以下である際、ある特定のスキルを使用できないなどの場合が存在するため、行為モデルが予測して出力した各スキルの予測確率に、スキル選別ベクトルを掛けることで、各ターンでゲームキャラクタが実際に選択できるスキルを選別する。次元が８であるスキル選別ベクトルは、数値が０又は１である８つの要素からなり、０又は１の値は、各ターンでゲームクライアントが送信した当該ターンの利用可能なスキルリストによって决定される。あるロールプレイングターン制ゲームにおいて、性別が男であり、職業が力量であるゲームキャラクタを例として、当該ゲームキャラクタのスキルリストは[「炎陽衝撃」、「腥風三連斬」、「生命感知」、「血略奪」、「暗影潜伏」、及び「奥義・地裂隕星」]という、合計６つの主動スキルを含む。当該ゲームキャラクタの、あるゲームターンでのスキル選別ベクトルが[１、１、１、０、１、１、０、０]であれば、ゲーム選別ベクトルの４番目の位置の値が０であることは、当該キャラクタの、当該ターンでの４番目の「血の略奪」というスキルが使用不能であることを意味し、７番目の位置及び８番目の位置での値を０に充填することは、当該キャラクタが６つの主動スキルしかリリースできないためである。他の要素の値が１であることは、当該キャラクタの、当該ターンでの他のスキルはいずれも使用可能な状態にあることを意味する。このような方式で、行為モデルにスキル選別ベクトルを導入することで、異なる戦闘ターンで異なるゲームキャラクタが選択できるゲームスキルを選別し、行為モデルの予測精度を向上させるとともに、無効なスキル選択を避ける。

図１０は、本出願の実施例において、使用する識別モデルのネットワークアーキテクチャ概略図を模式的に示す。図１０に示すように、識別モデルの入力は、ゲームキャラクタのあるゲーム軌跡データであり、例えば、３８次元のゲーム状態特徴ｓ_ｔ及び８次元のゲーム行為特徴ａ_ｔから接合された特徴ベクトルである。識別モデルの入力は、リアルゲームユーザのｓｔａｔｅ―ａｃｔｉｏｎ軌跡データであってもよく、行為モデルが生成したｓｔａｔｅ―ａｃｔｉｏｎ軌跡データであってもよい。識別モデルの構成全体は主に、次元がそれぞれ１０２４、５１２、２５６である３つの完全接続層ＦＣ１０１０、ＦＣ１０２０及びＦＣ１０３０を含み、識別モデルの出力層が２次元の分類器１０４０であり、モデルが予測した分類確率が０.５より大きい場合、識別モデルは、モデルから入力された軌跡データがリアルプレイヤーｓｔａｔｅ―ａｃｔｉｏｎ軌跡データＲｅａｌであると判定し、分類確率が０.５より小さい場合、識別モデルは、入力された軌跡データが、行為モデルが生成したｓｔａｔｅ―ａｃｔｉｏｎ軌跡データＦａｋｅであると判定する。

モデルのトレーニング過程で、識別モデルは、行為モデルが生成した軌跡データ

と、リアルゲームユーザの軌跡データ

とをできるだけ区別することをトレーニング目的とし、即ち、トレーニングサンプルに正確なラベルを割り当てる確率が最大であるように、

を最大化し、そのうち、

であり、

は、行為モデルの、入力した決定情報ペア

に対する出力確率である。行為モデルは、識別モデルを騙すように、リアルゲームユーザのリアルゲーム軌跡データ分布に近接するサンプルをできるだけ生成することを、トレーニング目的とし、即ち、

を最小化する。ジェネレーティブな敵対的模倣学習は本質的に、ｍｉｎｍａｘ敵対的ゲームを継続的に行って、目的関数の式は以下の通り、

。

モデルトレーニングの初期で、トレーニングが開始したばかりで、行為モデルの模倣能力が悪いため、出力した結果は明らかに、リアルゲームユーザのゲームデータとの差が大きく、そのため、識別モデルは高い置信度で真偽を判定でき、出力した確率値は１又は０に近接し、生成したネットワークの勾配が消える恐れがある。この場合、行為モデルのトレーニングラウンドで、目的関数を最小化

から、最大化

に置き換えて、これによって、トレーニング初期で大きい勾配を提供できる。

行為モデルと識別モデルとからなるジェネレーティブな敵対的ネットワークを確立した後、モデルトレーニングを開始できる。

まず、行為モデルと識別モデルとの重みパラメータをランダム的に初期化し、ニューラルネットワークモデルの重みをランダム的に初期化することで、モデルの収束速度及びパフォーマンスを加速する。

そして、１ラウンドゲームの現在ゲームターンのゲーム状態特徴ｓｔａｔｅを重みパラメータが

である行為モデルの入力とし、行為モデルが出力するゲーム行為特徴ａｃｔｉｏｎを、当該ゲームターンでゲームキャラクタがリリースしたスキルとし、ゲーム環境と行為モデルとの継続的なインタラクションによって、状態行為シーケンス

を生成でき、当該方式で、Ｎラウンドのゲームの対戦をすれば、行為モデルから生成された軌跡データセット

を取得できる。

交差エントロピー損失関数を利用して、識別モデルのモデルパラメータを更新し、リアルゲームユーザのリアルゲーム軌跡に対応する

の出力確率を大きくして、行為モデルから生成された生成ゲーム軌跡に対応する

の出力確率を低減させる。

深層強化学習における戦略勾配アルゴリズム（ｐｏｌｉｃｙｇｒａｄｉｅｎｔ）を採用して、行為モデルのモデルパラメータを更新することで、

の出力確率を大きくする。

強化学習の目的関数は以下の通りであり、

。
そのうち、

は、１組の状態及び行為シーケンスを示す。

は、シーケンス

の累積奨励ｒｅｗａｒｄの和を示す。

は、シーケンス

の出現確率を示す。

戦略勾配方法は、累積奨励の期待が最大であるように、戦略関数を示すための最適な１組のパラメータ

を探し出すことを、目的とする。

即ち、

最適パラメータ

の検索過程は、最適戦略又は最適経路の検索であり、戦略勾配アルゴリズムにおいて、勾配降下アルゴリズムを利用してパラメータの最適化更新を行うことで、解决される。

そのうち、

は学習率である。

目的関数の勾配は以下のように算出される。

そのうち、勾配の計算を、

の期待への解求めに変換し、モンテカルロ法を利用して近似推定を行って、即ち、現在戦略に基づき、Ｎ本の軌跡をサンプリングすることで、目的関数の勾配の近似解を求める。

ジェネレーティブな敵対的模倣学習において、行為モデルは戦略勾配アルゴリズムを採用して、パラメータを更新する場合、

は直接的にシステムから与えられず、識別モデルの出力

を

として、シーケンス

のｒｅｗａｒｄの和を示すため、行為モデルのパラメータ更新は以下の通りである。

本出願の実施例が提供する、行為モデルをトレーニングする技術案に基づき、電子ゲームにリアルゲームユーザ行為決定習慣に近接するか、又はリアルゲームユーザ行為決定期待に合うゲームＡＩを配置でき、当該ゲームＡＩはＮＰＣキャラクタとして、ゲームの実行過程に参加させてもよく、又はテストキャラクタとして、ゲームの開発過程で自動化テストを行わせてもよい。

ここで、図面は特定の順序で本出願の実施例の方法の各ステップを記載したが、当該特定の順序に従ってこれらのステップを実行しなければならないわけでなく、又は示した全てのステップを実行しなければ、期待結果を実現できないわけでもない。付加的又は選択的に、いくつかのステップを省略して、複数のステップを１つのステップに合併して実行してもよいし、及び／又は１つのステップを複数のステップに分解して実行してもよい。

以下は、本出願の実施例の装置実施例を紹介し、前記装置は、本出願の実施例の行為モデルのトレーニング方法、又は人工知能によるゲーム行為決定方法を実行できる。本出願の装置実施例の未開示の細部について、本出願の上記の方法実施例の部分を参照すればよい。

図１１は、本出願の実施例の情報処理装置の構成ブロック図を模式的に示す。図１１に示すように、情報処理装置１１００は主に、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュール１１１０と、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュール１１２０と、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュール１１３０と、
モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュール１１４０と、を含む。

本出願の実施例において、特徴抽出モジュール１１２０は、
ゲームシーンにおけるシーン状態情報、及びゲーム行為主体の主体状態情報を取得するように配置される情報取得ユニットと、
シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得するように配置される特徴抽出ユニットと、
シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置されるベクトル接合ユニットと、を含む。

いくつかの実施例において、マッピング処理モジュール１１３０は、
ゲーム行為主体と関連する少なくとも２つの候補ゲーム行為を決定するように配置される行為決定ユニットと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、各種の候補ゲーム行為の選択確率を取得するように配置されるマッピング処理ユニットと、
各種の候補ゲーム行為の行為利用可能な状態情報を取得し、行為利用可能な状態情報に基づき、候補ゲーム行為に対応する行為選別情報を決定するように配置される行為選別ユニットと、
行為選別情報に基づき、候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とするように配置される確率調整ユニットと、を含む。

いくつかの実施例において、確率調整ユニットは、
前記行為選別情報に基づき、前記候補ゲーム行為の行為タイプを決定するように配置される行為決定サブユニットであって、前記行為タイプは利用可能な行為及び利用不能な行為を含む行為決定サブユニットと、
前記候補ゲーム行為の行為タイプが利用不能な行為であると、その選択確率を所定確率に調整するように配置される確率調整サブユニットと、を含む。

いくつかの実施例において、行為選択モジュール１１４０は、
ランダム行為選択戦略の第１の確率及び高確率行為選択戦略の第２の確率をそれぞれ決定するように配置される確率決定ユニットと、
第１の確率及び第２の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定するように配置される戦略決定ユニットと、
モデル選択戦略がランダム行為選択戦略であれば、モデルゲーム行為として、少なくとも２つの候補ゲーム行為から１つの候補ゲーム行為をランダムに選択するように配置される第１の選択ユニットと、
モデル選択戦略が高価値行為選択戦略であれば、モデルゲーム行為として、少なくとも２つの候補ゲーム行為から、行為価値が最も高い１つの候補ゲーム行為を選択するように配置される第２の選択ユニットと、を含む。

いくつかの実施例において、情報処理装置は、
モデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成するように配置されるモデルサンプル取得モジュールと、
ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定するように配置されるユーザサンプル取得モジュールと、
モデルゲームサンプル及びユーザゲームサンプルをトレーニングサンプルとし、トレーニングサンプルを識別モデルに入力するように配置されるサンプル入力モジュールと、
識別モデルによりトレーニングサンプルに対してマッピング処理を行うことで、トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するためのサンプル識別情報を取得するように配置されるサンプル識別モジュールと、
サンプル識別情報に基づき、行為モデルと識別モデルとのモデルパラメータを更新するように配置されるパラメータ更新モジュールと、をさらに含む。

いくつかの実施例において、モデルサンプル取得モジュールは、
１つのゲームシーン内の少なくとも１つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得するように配置されるモデルラウンド決定ユニットと、
１つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成するように配置されるモデル情報取得ユニットと、
ゲーム順番情報に基づき、各ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、モデル決定情報ペアシーケンスを、ゲームシーンに対応するモデルゲームサンプルとするように配置されるモデルサンプル取得ユニットと、を含む。

いくつかの実施例において、ユーザサンプル取得モジュールは、
ユーザゲームデータに基づき、１つのゲームシーン内の少なくとも１つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得するように配置されるユーザラウンド決定ユニットと、
１つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成するように配置されるユーザ情報取得ユニットと、
ゲーム順番情報に基づき、各ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、ユーザ決定情報ペアシーケンスをゲームシーンに対応するユーザゲームサンプルとするように配置されるユーザサンプル取得ユニットと、を含む。

いくつかの実施例において、サンプル入力モジュールは、
トレーニングサンプルから、ゲーム順番に従って配列された決定情報ペアを取得し、各決定情報ペアにおけるゲーム状態情報及びゲーム行為情報をそれぞれ取得するように配置されるサンプル情報取得ユニットと、
ゲーム状態情報に対応する第１の特徴ベクトル、及びゲーム行為情報に対応する第２の特徴ベクトルを取得するように配置されるサンプルベクトル取得ユニットと、
第１の特徴ベクトル及び第２の特徴ベクトルに対して接合処理を行うことで、決定情報ペアのサンプル特徴ベクトルを取得するように配置されるサンプルベクトル接合ユニットと、
ゲーム順番に従って、トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力するように配置されるサンプルベクトル入力ユニットと、を含む。

いくつかの実施例において、サンプル識別モジュールは、
トレーニングサンプルにおける決定情報ペアの情報ペア数を取得するように配置される情報ペア数取得ユニットと、
識別モデルによって各決定情報ペアのサンプル特徴ベクトルに対して、マッピング処理を行うことで、各決定情報ペアの情報ペア分類確率を取得するように配置される情報ペア確率決定ユニットと、
情報ペア数及び情報ペア分類確率に基づき、トレーニングサンプルのサンプル分類確率を決定し、サンプル分類確率をサンプル識別情報とするように配置されるサンプル確率決定ユニットと、を含む。

いくつかの実施例において、パラメータ更新モジュールは、
ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待が含まれる目的関数を決定するように配置される関数決定ユニットと、
サンプル識別情報及び目的関数に基づき、行為モデルと識別モデルとのモデルパラメータを交互に更新するように配置されるパラメータ更新ユニットと、を含む。

いくつかの実施例において、パラメータ更新ユニットは、
行為モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、識別モデルのモデルパラメータを更新することで、ユーザゲームサンプルのサンプル分類確率を大きくして、モデルゲームサンプルのサンプル分類確率を低減させるように配置される行為モデル更新サブユニットと、
識別モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、行為モデルのモデルパラメータを更新することで、モデルゲームサンプルのサンプル分類確率を大きくするように配置される識別モデル更新サブユニットと、を含む。

本出願の各実施例が提供する情報処理装置の細部について、対応する方法実施例において詳しく記載したため、ここで、贅言しない。

図１２は、本出願の実施例が提供する電子装置のコンピュータシステムの構成概略図である。

ここで、図１２の電子装置のコンピュータシステム１２００は、本出願の実施例の機能及び使用範囲に対して何らかの限定もせず、１つの例示に過ぎない。

図１２に示すように、コンピュータシステム１２００は、読み取り専用メモリ（Ｒｅａｄ―ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１２０２に記憶されるプログラム、又は記憶部１２０８から、ランダムアクセスメモリ（Ｒａｎｄｏｍ
ＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１２０３に読み込んだプログラムに基づき、各種の適切な動作及び処理を実行できる中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇ
Ｕｎｉｔ、ＣＰＵ）１２０１を含む。ＲＡＭ１２０３には、システム操作に必要な各種のプログラム及びデータがさらに記憶される。ＣＰＵ１２０１、ＲＯＭ１２０２及びＲＡＭ
１２０３はバス１２０４によって互いに接続される。入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インターフェース１２０５もバス１２０４に接続される。

キーボード、マウスなどを含む入力部１２０６、例えば、陰極線管（Ｃａｔｈｏｄｅ
ＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、及びスピーカなどを含む出力部１２０７、ハードディスクなどを含む記憶部１２０８、及び、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルネットワーク）カード、変調復調器などのネットワークインターフェースカードを含む通信部１２０９という構成要素はＩ／Ｏインターフェース１２０５に接続される。通信部１２０９は、インターネットのようなネットワークによって通信処理を実行する。ドライブ１２１０も必要に応じてＩ／Ｏインターフェース１２０５に接続される。取り外し可能な媒体１２１１、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどは、必要に応じてドライブ１２１０に搭載されることで、その中から読み出されたコンピュータプログラムは、必要に応じて記憶部１２０８にインストールされる。

本出願の実施例によれば、各方法のフローチャートに記載の過程をコンピュータソフトウェアプログラムとして実現できる。例えば、本出願の実施例は、コンピュータ可読記憶媒体にキャリアされるコンピュータプログラムが含まれるコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートの方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信部１２０９を介してネットワークからダウンロードされてインストールされ、及び／又は、取り外し可能な媒体１２１１からインストールされる。当該コンピュータプログラムは中央処理ユニット（ＣＰＵ）１２０１に実行される場合、本出願のシステムに限定される各種の機能を実行する。

ここで、本出願の実施例のコンピュータ可読記憶媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置若しくはデバイス、或いは以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体の例は、１つ又は複数のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、フラッシュメモリ、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃ
Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ―ＲＯＭ）、光メモリ、磁気メモリ、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。本出願の実施例において、コンピュータ可読記憶媒体はプログラムを包含するか、又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又はデバイスに使用されてもよいし、又は結合されて使用されてもよい。本出願の実施例において、コンピュータ可読信号媒体は、ベースバンド、又はキャリアの一部として伝播されるデータ信号を含み、コンピュータ可読プログラムコードがキャリアされる。このように伝播されるデータ信号に対して、多種の形態を採用でき、電磁信号、光信号又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の、任意のコンピュータ可読記憶媒体であってもよく、当該コンピュータ可読記憶媒体は、指令実行システム、装置又はデバイスに使用され、又は結合されて使用されるプログラムを送信、伝播又は伝送する。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、無線、有線など、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。

図面のフローチャート及びブロック図は、本出願の各種実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント、又はコードの一部を代表でき、上記のモジュール、プログラムセグメント、又はコードの一部は、規定の論理機能を実現するための１つ又は複数の実行可能な指令を含む。ここで、置換としてのいくつかの実現において、ブロックに明記される機能を図面と異なる順序で発生させてもよい。例えば、連続的に示した２つのブロックは、実際、基本的に並行実行されてもよく、逆の順序に従って実行されてもよく、係る機能に基づき決定される。また、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、ハードウェアによる、規定の機能又は操作を実行するための専用システムを利用して、実現されてもよいし、専用ハードウェアとコンピュータ指令との組み合わせを利用して、実現されてもよい。

ここで、以上の詳しい記載において、動作実行のための装置のいくつかのモジュール又はユニットを言及したが、このような区別は強制的なものではない。実際、本出願の実施形態によれば、１つのモジュール又はユニットにおいて、以上の記載の２つ又は複数のモジュール又はユニットの特徴及び機能を具体化できる。一方、複数のモジュール又はユニットにより具体化するように、以上の記載の１つモジュール又はユニットの特徴及び機能を分割してもよい。

以上の実施形態の記載によって、ここに記載の例示的な実施形態はソフトウェアによって実現されてもよいし、ソフトウェアに必要なハードウェアを結合する方式で実現されてもよい。従って、本出願の実施形態による技術案は、ソフトウェア製品の形態として体現され、当該ソフトウェア製品は非揮発性記憶媒体（ＣＤ―ＲＯＭ、Ｕディスク、モバイルハードディスクなど）、又はネットワークに記憶されて、１台のコンピューティング装置（パーソナルコンピュータ、サーバー、タッチ制御端末、又はネットワーク装置など）に、本出願の実施形態による方法を実行させる若干の指令を含む。

当業者は、明細書を考慮し、ここに開示の発明を実践した後、本出願の他の実施解決策を容易に想到し得る。本出願は、本出願の任意の変形、用途又は適切な変更をカバーするように意図され、これらの変形、用途又は適切な変更は、本出願の一般的な原理に従うとともに、本出願が開示していない当分野の公知常識又は通常の技術手段も含む。

ここで、本出願は、以上に記載され、図示された精確な構成に限定されず、その範囲から逸脱しない場合、各種の修正及び変更を行うことができる。本出願の範囲は、添付の請求項に限定される。

本出願の実施例では、電子装置は、ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得し、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得し、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得し、モデルゲーム行為選択情報に基づき、少なくとも２つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択する。このように、ゲームに適用され、ゲームＡＩを設置する場合、ゲームＡＩの決定能力を大幅に向上させ、ゲームＡＩに、より高い擬人化効果及び知能化レベルを具備させ、ゲームユーザのゲームエクスペリエンスを最適化する。

Claims

電子装置が実行する情報処理方法であって、
ゲームシーンにおけるゲーム行為主体を決定し、前記ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、
前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、
前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、
前記モデルゲーム行為選択情報に基づき、前記少なくとも２つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む、
情報処理方法。
前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得する前記ステップは、
前記ゲームシーンにおけるシーン状態情報及び前記ゲーム行為主体の主体状態情報を取得するステップと、
前記シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、前記主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得するステップと、
前記シーン特徴ベクトル及び前記主体特徴ベクトルに対して接合処理を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、を含む、
請求項１に記載の情報処理方法。
前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得する前記ステップは、
前記ゲーム行為主体と関連する少なくとも２つの候補ゲーム行為を決定するステップと、
前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、各種の前記候補ゲーム行為の選択確率を取得するステップと、
各種の前記候補ゲーム行為の行為利用可能な状態情報を取得し、前記行為利用可能な状態情報に基づき、前記候補ゲーム行為に対応する行為選別情報を決定するステップと、
前記行為選別情報に基づき、前記候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とするステップと、を含む、
請求項１に記載の情報処理方法。
前記行為選別情報に基づき、前記候補ゲーム行為の選択確率を調整する前記ステップは、
前記行為選別情報に基づき、前記候補ゲーム行為の行為タイプを決定するステップであって、前記行為タイプは、利用可能な行為及び利用不能な行為を含むステップと、
前記候補ゲーム行為の行為タイプが利用不能な行為であると、前記候補ゲーム行為の選択確率を所定確率に調整するステップと、を含む、
請求項３に記載の情報処理方法。
前記モデルゲーム行為選択情報に基づき、前記少なくとも２つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択する前記ステップは、
ランダム行為選択戦略の第１の確率及び高確率行為選択戦略の第２の確率をそれぞれ決定するステップと、
前記第１の確率及び前記第２の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定するステップと、
前記モデル選択戦略がランダム行為選択戦略であると、モデルゲーム行為として、前記少なくとも２つの候補ゲーム行為から１つの候補ゲーム行為をランダムに選択するステップと、
前記モデル選択戦略が高価値行為選択戦略であると、モデルゲーム行為として、前記少なくとも２つの候補ゲーム行為から、行為価値が最も高い１つの候補ゲーム行為を選択するステップと、を含む、
請求項１に記載の情報処理方法。
当該情報処理方法は、
前記モデルゲーム状態情報と前記モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成するステップと、
前記ゲーム行為主体と関連するユーザゲームデータを取得し、前記ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定するステップと、
前記モデルゲームサンプル及び前記ユーザゲームサンプルをトレーニングサンプルとし、前記トレーニングサンプルを識別モデルに入力するステップと、
前記識別モデルによって、前記トレーニングサンプルに対してマッピング処理を行うことで、前記トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するためのサンプル識別情報を取得するステップと、
前記サンプル識別情報に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを更新するステップと、をさらに含む、
請求項１に記載の情報処理方法。
前記モデルゲーム状態情報と前記モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成する前記ステップは、
１つのゲームシーン内の少なくとも１つのゲームラウンドを決定し、各前記ゲームラウンドのゲーム順番情報を取得するステップと、
１つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成するステップと、
前記ゲーム順番情報に基づき、各前記ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、前記モデル決定情報ペアシーケンスを前記ゲームシーンに対応するモデルゲームサンプルとするステップと、を含む、
請求項６に記載の情報処理方法。
前記ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定する前記ステップは、
前記ユーザゲームデータに基づき、１つのゲームシーン内の少なくとも１つのゲームラウンドを決定し、各前記ゲームラウンドのゲーム順番情報を取得するステップと、
１つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成するステップと、
前記ゲーム順番情報に基づき、各前記ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、前記ユーザ決定情報ペアシーケンスを、前記ゲームシーンに対応するユーザゲームサンプルとするステップと、を含む、
請求項６に記載の情報処理方法。
前記トレーニングサンプルを識別モデルに入力するステップは、
前記トレーニングサンプルから、ゲーム順番に従って配列された決定情報ペアを取得し、各前記決定情報ペアにおけるゲーム状態情報及びゲーム行為情報をそれぞれ取得するステップと、
前記ゲーム状態情報に対応する第１の特徴ベクトル、及び前記ゲーム行為情報に対応する第２の特徴ベクトルを取得するステップと、
前記第１の特徴ベクトル及び前記第２の特徴ベクトルに対して接合処理を行うことで、前記決定情報ペアのサンプル特徴ベクトルを取得するするステップと、
前記ゲーム順番に従って、前記トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力するステップと、を含む、
請求項６に記載の情報処理方法。
前記識別モデルによって、前記トレーニングサンプルに対してマッピング処理を行うことで、サンプル識別情報を取得するステップは、
前記トレーニングサンプルにおける決定情報ペアの情報ペア数を取得するステップと、
前記識別モデルによって、各前記決定情報ペアのサンプル特徴ベクトルに対してマッピング処理を行うことで、各前記決定情報ペアの情報ペア分類確率を取得するステップと、
前記情報ペア数及び前記情報ペア分類確率に基づき、前記トレーニングサンプルのサンプル分類確率を決定し、前記サンプル分類確率をサンプル識別情報とするステップと、を含む、
請求項９に記載の情報処理方法。
前記サンプル識別情報に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを更新する前記ステップは、
ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待を含む目的関数を決定するステップと、
前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを交互に更新するステップと、を含む、
請求項６に記載の情報処理方法。
前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを交互に更新するステップは、
前記行為モデルのモデルパラメータを固定し、前記サンプル識別情報及び前記目的関数に基づき、前記識別モデルのモデルパラメータを更新することで、前記ユーザゲームサンプルのサンプル分類確率を大きくして、前記モデルゲームサンプルのサンプル分類確率を低減させるステップと、
前記識別モデルのモデルパラメータを固定し、前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルのモデルパラメータを更新することで、前記モデルゲームサンプルのサンプル分類確率を大きくするステップと、を含む、
請求項１１に記載の情報処理方法。
ゲームシーンにおけるゲーム行為主体を決定し、前記ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュールと、
前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュールと、
前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも２つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュールと、
前記モデルゲーム行為選択情報に基づき、前記少なくとも２つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュールと、を含む、
情報処理装置。
プロセッサによって実行される場合に、請求項１～１２のいずれか１項に記載の情報処理方法を実現する、コンピュータプログラム。
プロセッサと、
前記プロセッサの実行可能な指令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能な指令を実行することで、請求項１～１２のいずれか１項に記載の情報処理方法を実行するように配置される、
電子装置。