JP2023502860A - 情報処理方法、装置、コンピュータプログラム及び電子装置 - Google Patents

情報処理方法、装置、コンピュータプログラム及び電子装置 Download PDF

Info

Publication number
JP2023502860A
JP2023502860A JP2022523836A JP2022523836A JP2023502860A JP 2023502860 A JP2023502860 A JP 2023502860A JP 2022523836 A JP2022523836 A JP 2022523836A JP 2022523836 A JP2022523836 A JP 2022523836A JP 2023502860 A JP2023502860 A JP 2023502860A
Authority
JP
Japan
Prior art keywords
game
model
action
information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022523836A
Other languages
English (en)
Other versions
JP7399277B2 (ja
Inventor
チャン,ティエンユアン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2023502860A publication Critical patent/JP2023502860A/ja
Application granted granted Critical
Publication of JP7399277B2 publication Critical patent/JP7399277B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/35Details of game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/45Controlling the progress of the video game
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/56Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/69Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor by enabling or updating specific game elements, e.g. unlocking hidden features, items, levels or versions
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/55Details of game data or player data management
    • A63F2300/5546Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【要約】本出願の実施例は人工知能の技術分野に関して、特に、情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置に関する。当該情報処理方法は、ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連付けたモデルゲーム状態情報を取得するステップと、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む。

Description

(関連出願の参照)
本出願は、出願番号が202010086291.6であり、出願日が2020年02月11日である中国特許出願に基づき提出されるとともに、当該中国特許出願の優先権を主張して、当該中国特許出願の全ての内容は本出願に援用される。
(技術分野)
本出願は、人工知能技術分野、及び機械学習技術に関して、特に、情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置に関する。
電子ゲームには、一般的に人間のゲーム行為を真似ることができるゲーム人工知能(Artificial Intelligence、AI)が配置され、ゲームAIは仮想プレイヤーとしてゲームプロセスに参加して、リアルゲームユーザとインタラクションを行って、ユーザがゲームのルールを理解するのを助けたり、ゲーム中にユーザにゲームの決定の提案を提供したりし、また、電子ゲームに対して自動化テストを行う。
電子ゲーム産業の発展に連れて、電子ゲームにおけるゲーム内容要素のタイプ及び数量はますます多くなり、ゲーム環境状態もますます複雑になる。多様化且つだんだん複雑になるゲーム内容及びゲーム環境に直面して、ゲームAIはリアルユーザの行動習慣に準拠したり、ユーザの期待に応えたりするゲームの行動を決定することは、多くの場合困難であり、一般的に、知能化のレベルが低く、決定能力が悪いなどの問題が生じる
本出願の実施例は、ゲームAIの決定能力を向上させ、ゲームAIにより高い擬人化効果及び知能化レベルを具備させるための情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を提供する。
本出願の実施例は情報処理方法を提供し、当該方法は、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、
モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む。
本出願の実施例は情報処理装置をさらに提供し、当該装置は、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュールと、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュールと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュールと、
モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュールと、を含む。
本出願の実施例はコンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムが記憶され、当該コンピュータプログラムはプロセッサに実行される場合、以上の技術案の情報処理方法を実現する。
本出願の実施例は電子装置をさらに提供し、当該電子装置はプロセッサと、プロセッサの実行可能な指令を記憶するように配置されるメモリと、を含み、プロセッサは実行可能な指令を実行することで、以上の技術案の情報処理方法を実行するように配置される。
本出願の実施例が提供する情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を利用して、ゲームシーンに対して特徴抽出を行うことで、シーン特徴を取得し、予めトレーニングされた行為モデルを利用してシーン特徴に対して分析決定を行って、候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択し、ユーザの期待に合うゲーム行為決定を取得する。ゲームに適用され、ゲームAIを設置する場合、ゲームのシーン特徴に基づき、モデルゲーム行為を選択するため、選択したモデルゲーム行為はゲームのシーンにより適応し、異なるゲームシーンに対して、相応的なモデルゲーム行為を選択し、ゲームAIが実施するゲーム行為を豊かにして、ゲームAIの決定能力を大幅に向上させ、ゲームAIに、より高い擬人化効果及び知能化レベルを具備させ、マンマシンインタラクション効率を向上させる。
本出願の実施例が提供する例示的なシステムアーキテクチャ概略図である。 本出願の実施例が提供するジェネレーティブな敵対的模倣学習原理の概略図である。 本出願の実施例が提供するジェネレーティブな敵対的模倣学習のモデルアーキテクチャ概略図である。 本出願の実施例が提供する、ゲーム行為決定を行うための情報処理方法のフロー概略図である。 本出願の実施例が提供する、ゲームシーンに対して特徴抽出を行うフロー概略図である。 本出願の実施例が提供する、行為モデルを利用して特徴マッピングを行うフロー概略図である。 本出願の実施例が提供する、ε―greedy法に基づき、モデルゲーム行為を選択するフロー概略図である。 本出願の実施例が提供する、行為モデルに対してモデル最適化を行うフロー概略図である。 本出願の実施例が提供する、行為モデルのネットワークアーキテクチャ概略図である。 本出願の実施例が提供する、識別モデルのネットワークアーキテクチャ概略図である 本出願の実施例が提供する情報処理装置の構成ブロック図である。 本出願の実施例が提供する電子装置のコンピュータシステムの構成概略図である。
これから、図面を参照して、例示的な実施形態をより全面的に説明する。ただし、例示的な実施形態は多種の形態で実施できるため、ここに記載の例示に限定されず、逆に、これらの実施形態を提供することで、本出願の実施例をより全面且つ完全にして、例示的な実施形態の構想を全面的に当業者に伝達する。
また、記載の特徴、構成又は特性を任意の適切な方式で1つ又は複数の実施例に結合できる。以下の記載において、多くの細部を提供することで、本出願の実施例に対する十分な理解を与える。ただし、細部における1つ又は複数を特定しなくても、本出願の実施例の技術案を実践でき、又は他の方法、コンポーネント、装置、ステップなどを採用してもよい。他の場合、本出願の実施例の各態様が曖昧になることを避けるために、公知の方法、装置、実現又は操作を詳しく説明又は記載していない。
図面のブロック図は、必ずしも、物理的に独立したエンティティに対応するわけではなく、機能エンティティに過ぎず。即ち、これらの機能エンティティをソフトウェア形態で実現してもよく、或いは1つ又は複数のハードウェアモジュール又は集積回路において、これらの機能エンティティを実現してもよく、或いは異なるネットワーク及び/又はプロセッサ装置、及び/又はマイクロコントローラ装置において、これらの機能エンティティを実現してもよい。
図面のフローチャートは、必ずしも全ての内容及び行為/ステップを含まなければならないわけではなく、記載の順序に従って実行しなければならないわけではなく、例示的な説明である。例えば、ある操作/ステップを分解してもよいし、ある操作/ステップを結合するか、又は部分的に結合してもよいため、実際の状況に応じて、実際の実行順序は変更する可能性がある。
当分野の関連技術において、人工知能技術に基づき、電子ゲームにゲームAIを配置することは、電子ゲーム産業の普遍のやり方になっている。例えば、ゲームAIはゲームティーチングで、ユーザにゲームルールのティーチング及びガイダンスを提供でき、また、ゲームプレイ中にユーザにゲーム提案を提供でき、仮想プレイヤーとしてマンマシン対戦を実現でき、又はゲームの開発過程で自動化テストなどを行う。
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータにより制御されるマシンを利用して、人の知能を真似、延伸及び拡張し、環境を感知し、知識を取得して、知識を利用して最適な結果を取得する理論、方法、技術及び応用システムである。言い換えると、人工知能はコンピュータ科学の綜合技術であり、知能の実質を了解して、人間の知能に類似する方式で反応できる新たなスマートマシンを生成しようとする。人工知能は、各種のスマートマシンの設計原理及び実現方法を研究して、マシンに感知、推理及び決定の機能を具備させる。
人工知能技術は綜合学科であり、幅広い分野に関わり、ハードウェア層面の技術もあれば、ソフトウェア層面の技術もある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分布式記憶、ビッグデータ処理技術、操作/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主に、コンピュータ視覚技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかの方向を含む。
機械学習(Machine Learning、ML)は、多分野交差学科であり、確率論、統計学、近似理論、凸解析、計算複雑性理論などの複数の学科に関わる。新たな知識又はスキルを取得するために、コンピュータが人間の学習行為を如何に真似して又は実現するかを専門に研究して、既存の知識構成を改めて組織することで、その自体のパフォーマンスを改善する。機械学習は人工知能の核心であり、コンピュータに知能を具備させる根本的な方法であり、その応用は人工知能の各分野に及んでいる。機械学習及び深層学習は一般的に、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、ティーチング学習などの技術を含む。
機械学習又は深層学習によってゲームAIをトレーニングすることで、リアルユーザのゲーム決定行為を真似でき、ゲームAIの決定能力を向上させ、人間行為論理に合う効果的な決定をさせることができる。ただし、ルールが複雑且つ多様である電子ゲームにとって、大量のトレーニング時間及び計算リソースを掛けても、よいトレーニング効果を取得し難い。
ターン制ロールプレイングゲームを例として、一部のゲームにおけるノンプレイヤーキャラクタ(Non―Player Character、NPC)は、ほとんど決定ツリーを確立して、スキルの自動化なリリースを実現する。決定ツリーアルゴリズムは、関連特徴を選択することによって、ツリー構成を確立し、各親世代のサブノードは、当該ノードが有するスキルリリース戦略を代表する。当該技術は小サンプルデータ自体に限定され、生じるゲーム行為戦略は固定且つ単一であり、スキルの選択及びリリースはランダム的であり、知能化程度が低くて、トレーニングセットでの表現がよいが、リアルゲーム環境での戦略表現が悪いという現象がよくあり、ひどい過剰適合現象が存在する。リアルゲームユーザと多人数対戦を行う場合、このようなゲームAIのスキルリリース戦略、即ち、実行するゲーム行為は一般的に単一且つ固定であり、現在のゲームシーンと適さず、ゲームAIの知能化程度が低いため、マンマシンインタラクション効率が低い。
以上の技術案の問題について、本出願の実施例は、ゲームAIの知能化レベルを著しく向上させることができる情報処理方法、情報処理装置、コンピュータ可読記憶媒体及び電子装置を提供する。
図1は、本出願の技術案を適用する例示的なシステムアーキテクチャ概略図を模式的に示す。
図1に示すように、システムアーキテクチャ100は、クライアント110、ネットワーク120及びサーバ130を含む。クライアント110はスマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータなどの各種の端末装置を含む。サーバ130はネットワークサーバ、アプリケーションサーバ、データベースサーバなどの各種のサーバ装置を含む。ネットワーク120は、クライアント110とサーバ130との間で通信リンクを提供できる各種の接続タイプの通信媒体であってもよく、例えば、有線通信リンク、無線通信リンクなどであってもよい。
実現の必要に応じて、本出願の実施例のシステムアーキテクチャは、任意数のクライアント、ネットワーク及びサーバを具備してもよい。例えば、サーバ130は複数のサーバ装置からなるサーバグループであってもよく、サーバ装置は、計算できる任意のハードウェア装置を含んでもよいが、限定されず、例えば、独立した物理サーバ、複数の物理サーバからなるサーバクラスタ又は分散型システム、或いはクラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティーサービス、及びビッグデータ及び人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供できるクラウドサーバであってもよい。また、本出願の実施例の技術案は、クライアント110、又はサーバ130に適用されてもよいし、クライアント110及びサーバ130によって共同で実現されてもよく、これに対して、本出願の実施例は特に限定しない。
例えば、クライアント110に搭載されるゲームアプリケーションプログラムによって、リアルゲームユーザのゲームデータを取り込んで、ネットワーク120を介してゲームデータをサーバ130にアップロードすることができる。サーバ130は、受信したゲームデータに基づき、機械学習モデルをトレーニングすることで、ユーザゲーム行為を真似して、ゲーム決定をするゲームAIモデルを取得できる。当該ゲームAIモデルは、クライアント110がアップロードしたゲームデータに基づき、ゲーム決定をして、1つのゲーム行為(例えば、スキルリリース行為)を選択して、行為選択情報をクライアント110に送信する。クライアント110は、サーバ130から戻ったゲーム行為選択情報に基づき、ゲームアプリケーションプログラムにおけるゲームキャラクタを制御して、相応的なゲーム行為を実施させる。
ターン制ロールプレイングゲームを例として、本出願が提供する技術案は、NPCキャラクタとしてのゲームAIの知能化スキルリリースをトレーニングできる。ターン制ロールプレイングゲームにおいて、ゲームユーザとNPCキャラクタとのゲームシーンでのゲームキャラクタのスキルは、一般的に複数があり、且つ各ターンのスキルリリースは、現在ターンの各ゲームキャラクタの状態と関連するため、NPCキャラクタの対戦戦略学習の複雑さ及び困難さが高くて、ネットワークモデルが直接的にゼロから学習すると、コストが高い。本出願の実施例は模倣学習の考えに基づき、リアルゲームユーザのスキルリリースの行為を観察し、真似することで、対戦戦略を学習する。本出願の実施例は模倣学習に基づき、ジェネレーティブな敵対的学習の考えを導入することで、ジェネレーティブな敵対的模倣学習の方式で、NPCキャラクタとしてのゲームAIをトレーニングする。図2は、ジェネレーティブな敵対的模倣学習原理の概略図を模式的に示し、図2に示すように、リアルゲームユーザがゲームを実行することにより生じたユーザゲームデータセット
Figure 2023502860000002
は、ある分布に服従すると仮定し、ユーザゲームデータ
Figure 2023502860000003
であり、
Figure 2023502860000004
はリアルゲームユーザの対応するゲーム行為主体(例えば、ゲームユーザが制御するゲームキャラクタ)の、ゲームシーンでのユーザゲーム状態を示し、
Figure 2023502860000005
は、相応的なユーザゲーム状態に直面する場合、リアルゲームユーザによるユーザゲーム行為を示す。本出願の実施例において、行為モデルActorとゲームシーンとの連続的なインタラクションによって、リアルゲームユーザのゲーム行為を真似するモデルゲームデータセット
Figure 2023502860000006
を生成でき、そのうち、
Figure 2023502860000007
であり、
Figure 2023502860000008
は、行為モデルの対応するゲーム行為主体(例えば、NPCキャラクタ)の、ゲームシーンでのモデルゲーム状態を示し、
Figure 2023502860000009
は、相応的なモデルゲーム状態に直面する場合、行為モデルによるモデルゲーム行為を示す。ジェネレーティブな敵対的学習の方法で、モデルゲームデータセットはユーザゲームデータセットの確率分布にだんだん近接し、行為モデルActorを引き続いて学習することで、結果として、ユーザゲームデータの確率分布を学習できる。このように、行為モデルが出力するスキルリリース、及びキルターゲット選択などのゲーム行為は、リアルゲームユーザの行為により近接し、ゲームAIはより高い擬人化効果及び知能化レベルを具備して、マンマシンインタラクション効率を向上させる。
図3は、本出願の実施例が使用するジェネレーティブな敵対的模倣学習のモデルアーキテクチャ概略図を模式的に示す。図3に示すように、ジェネレーティブな敵対的模倣学習の過程で、行為モデルActorの学習目的は以下の通りであり、戦略πを引き続いて最適化することで、生成したモデルゲームデータセット
Figure 2023502860000010
が、リアルゲームユーザのユーザゲームデータセット
Figure 2023502860000011
の確率分布にできるだけ近接させ、これによって、モデルから入力されたデータがリアルゲームユーザのユーザゲームデータであるか、それとも行為モデルActorが生成したモデルゲームデータであるか、について、識別モデルDiscriminator(分別器)は区別できない。識別モデルDiscriminatorは、モデルから入力されたデータがユーザゲームデータであるか、それともモデルゲームデータであるか、をできるだけ区別することを学習目的とする。いくつかの実施例において、行為モデルActorの学習アルゴリズムは、深層強化学習における戦略勾配(policy
gradient)アルゴリズムを採用してパラメータを最適化し、識別モデルDiscriminatorは教師あり学習の分類アルゴリズムを採用して、パラメータを更新する。
本出願が提供する技術案を以下に詳しく説明する。ここで、以下の各実施例は主に、ターン制ロールプレイングゲームを例とするが、本出願の実施例はこれに限定されない。
図4は、本出願の実施例においてゲーム行為決定のための情報処理方法のフロー概略図を模式的に示し、いくつかの実施例において、電子装置により当該方法を実行し、電子装置は端末又はサーバーであってもよい。図4に示すように、当該方法は主に以下のステップを含み、
ステップS410:ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得する。
ゲーム行為主体は、ゲームシーンでゲーム行為を実行する主体オブジェクト、例えば、ゲームにおけるNPCキャラクタであってもよく、当該NPCキャラクタは、ゲームユーザが制御する人物キャラクタと対戦できる。行為モデルは、予めトレーニングしたゲームAIモデルであり、ゲームシーンに基づき、ゲーム行為主体がゲーム行為を実行するように制御する。例えば、1つのNPCキャラクタは8つの異なるゲームスキルを有し、当該8つのゲームスキルのリリースは、8つの異なるゲーム行為に属する。また、例えば、NPCキャラクタは多種の異なるタイプのゲーム道具、例えば、仮想武器、仮想品物などを使用でき、異なるタイプのゲーム道具の使用を、異なるタイプのゲーム行為としてもよい。
ステップS420:ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得する。
ゲーム行為主体がどんなゲーム行為を実施することは、ゲームシーンのシーン特徴と関連し、多種の異なるタイプのシーン特徴に対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得でき、シーン特徴は、例えば、ゲームキャラクタの職業、ヒットポイント、利用可能なスキルなどの情報を含む。特徴抽出により得られるモデルゲーム状態情報は、指定の長さを有する特徴ベクトル、例えば、38次元のベクトルであってもよい。ゲームシーンに対するシーン特徴抽出の方法は、例えば、シーン特徴に対して符号化処理を行うことで符号化ベクトルを取得してから、符号化ベクトルと埋め込み行列とを乗算することで指定の長さを有する特徴ベクトルを取得することを含む。
ステップS430:行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得する。
行為モデルは、複数のネットワーク層を有するニューラルネットワークモデル、例えば複数の完全接続層が順次に接続された完全接続ネットワークモデルである。行為モデルにおける各ネットワーク層はいずれも1つのマッピング関数とみなすことができ、入力行為モデルのモデルゲーム状態情報に対して層ごとに特徴マッピング処理を行うことで、モデルゲーム行為選択情報を出力して取得できる。モデルゲーム行為選択情報は、少なくとも2つの候補ゲーム行為に対応する行為決定情報であり、例えば、行為モデルの分析決定により得られた各種の候補ゲーム行為の選択確率である。候補ゲーム行為は、例えば、ゲームシーンでゲーム行為主体がリリースできる異なるタイプのゲームスキルである。
ステップS440:モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択する。
モデルゲーム行為選択情報は、各種の候補ゲーム行為の選択確率であり、当該ステップにおいて、グリーディアルゴリズムを採用して、選択確率が最も高い1つの候補ゲーム行為をゲーム行為主体が実行するモデルゲーム行為とする。又は選択確率に従って、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行する1つのモデルゲーム行為をランダム的に選択してもよい。
本出願の実施例が提供する情報処理方法において、ゲームシーンに対して特徴抽出を行うことで、シーン特徴を取得し、予めトレーニングされた行為モデルを利用してシーン特徴に対して分析決定を行って、候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択し、ユーザの期待に合うゲーム行為決定を取得する。ゲームに適用されゲームAIを設置する場合、ゲームのシーン特徴に基づき、モデルゲーム行為を選択するため、選択したモデルゲーム行為はゲームのシーンにより適応し、異なるゲームシーンに対して、相応的なモデルゲーム行為を選択し、ゲームAIが実施するゲーム行為を豊かにして、ゲームAIの決定能力を大幅に向上させ、ゲームAIに、より高い擬人化効果及び知能化レベルを具備させ、マンマシンインタラクション効率を向上させる。
図5は、本出願の実施例において、ゲームシーンに対して特徴抽出を行うフロー概略図を模式的に示す。図5に示すように、以上の実施例に基づき、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップS420は以下のステップを含み、
ステップS510:ゲームシーンにおけるシーン状態情報、及びゲーム行為主体の主体状態情報を取得する。
シーン状態情報は、ゲームシーンにおけるシーン環境と関連する情報であり、主体状態情報は、ゲーム行為主体の自体ゲーム属性と関連する情報である。例えば、ターン制ロールプレイングゲームにおいて、シーン状態情報は現在対戦のターン数、対戦オブジェクトの分布位置などの環境情報を含み、主体状態情報はゲーム行為主体の職業、ヒットポイント、マジックポイントなどの属性情報を含む。
ステップS520: シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得する。
シーン状態情報は、多種の異なるタイプの環境情報を含み、各種の環境情報に対して特徴抽出をそれぞれ行うことで、複数のシーン特徴ベクトルを取得する。主体状態情報は、多種の異なるタイプの属性情報を含んでもよく、各種の属性情報に対して特徴抽出をそれぞれ行うことで、複数の主体特徴ベクトルを取得する。
ステップS530:シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得する。
指定の接合順序に従って、シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行った後、指定の長さを有する接合ベクトルを形成し、当該接合ベクトルを、ゲーム行為主体と関連するモデルゲーム状態情報とする。
シーン状態情報及び主体状態情報に対してそれぞれ特徴抽出を行うことで、多種の環境情報及び属性情報をカバーするモデルゲーム状態情報を取得でき、当該情報は複数の特徴次元を備える。複数の特徴次元に基づき行為決定をすることで、行為モデルの分析及び決定能力を向上させ、行為モデルの知能化レベルを高める。
図6は、本出願の実施例において、行為モデルによって特徴マッピングを行うフロー概略図を模式的に示す。図6に示すように、以上の実施例に基づき、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップS430は以下のステップを含み、
ステップS610:ゲーム行為主体と関連する少なくとも2つの候補ゲーム行為を決定する。
候補ゲーム行為は、ゲーム行為主体に選択し実行させるためのゲーム行為であり、例えば、ゲーム行為主体はあるゲームキャラクタである場合、候補ゲーム行為は、当該ゲームキャラクタによるあるゲームスキルのリリース、又はあるゲーム道具の使用であってもよい。
ステップS620:行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、各種の候補ゲーム行為の選択確率を取得する。
選択確率は、各種の候補ゲーム行為をモデルゲーム行為として選択する可能性を決定する。ある候補ゲーム行為の選択確率が高いほど、行為モデルが、当該候補ゲーム行為を実行するゲーム収益効果がよりよくと予測する。
ステップS630:各種の候補ゲーム行為の行為利用可能な状態情報を取得し、行為利用可能な状態情報に基づき、候補ゲーム行為に対応する行為選別情報を決定する。
行為利用可能な状態情報は、現在ゲームシーンにおいて各種の候補ゲーム行為が利用可能であるかどうかを示し、各種の候補ゲーム行為の行為利用可能な状態情報に基づき、対応する行為選別情報を決定できる。行為選別情報は指定の長さを有する1つの選別ベクトルであり、当該選別ベクトルの長さは候補ゲーム行為の数である。例えば、8つの候補ゲーム行為は、1つの8次元の選別ベクトルに対応する。選別ベクトルにおける各要素の値を0又は1としてもよく、値が0であると、対応する候補ゲーム行為を選択して実行できないことを示し、値が1であると、対応する候補ゲーム行為を選択し実行できることを示す。
ステップS640:行為選別情報に基づき、候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とする。
行為選別情報に基づき、候補ゲーム行為が利用可能な行為であるか、それとも利用不能な行為であるかを決定でき、利用可能な行為は、実行対象として選択できるゲーム行為であり、利用不能な行為は、実行対象として選択できないゲーム行為である。候補ゲーム行為が利用可能な行為であると、その選択確率をそのまま保持する。候補ゲーム行為が利用不能な行為であると、その選択確率を所定確率、例えば0又は0に近接する極小値に調整する。
行為選別情報を取得し、行為選別情報に基づき、選択確率を調整するように、候補ゲーム行為をフィルタリングすることで、行為モデルの決定精度を向上させ、無効行為決定の出現を避ける。
取得したゲーム行為選択情報に基づき、異なる行為選択戦略を採用して、モデルゲーム行為を選択する。図7は、本出願の実施例において、ε―greedy戦略に基づきモデルゲーム行為を選択するフロー概略図を模式的に示す。
図7に示すように、以上の各実施例に基づき、ゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するステップS440は以下のステップを含み、
ステップS710:ランダム行為選択戦略の第1の確率及び高確率行為選択戦略の第2の確率をそれぞれ決定する。
ランダム行為選択戦略及び高確率行為選択戦略は、2つの異なるゲーム行為選択戦略である。ランダム行為選択戦略は、等確率ランダム選択の方式に従って、モデルゲーム行為として、多種の候補ゲーム行為から1つを選択する。高確率行為選択戦略は、多種の候補ゲーム行為から、選択確率が最も高い1つの候補ゲーム行為をモデルゲーム行為とする。例えば、ランダム行為選択戦略の第1の確率がεであれば、相応的に、高確率行為選択戦略の第2の確率を1―εに決定する。
ステップS720:第1の確率及び第2の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定する。
毎回モデルゲーム行為を選択する前に、第1の確率及び第2の確率に基づき、モデル選択戦略を決定する。例えば、εの値を0.1にする場合、モデル選択戦略としてランダム行為選択戦略を採用する確率が10%であり、高確率行為選択戦略を採用する確率が90%である。また、例えば、εの値を0.01にする場合、モデル選択戦略として、ランダム行為選択戦略を採用する確率が1%であり、高確率行為選択戦略を採用する確率が99%である。
ステップS730:モデル選択戦略がランダム行為選択戦略であれば、モデルゲーム行為として、少なくとも2つの候補ゲーム行為から1つの候補ゲーム行為をランダムに選択する。
モデル選択戦略がランダム行為選択戦略であれば、当該ステップは等確率ランダム選択方式を採用して、モデルゲーム行為として、多種の候補ゲーム行為から1つの候補ゲーム行為をランダムに選択することができる。
ステップS740:モデル選択戦略が高価値行為選択戦略であれば、モデルゲーム行為として、少なくとも2つの候補ゲーム行為から、行為価値が最も高い1つの候補ゲーム行為を選択する。
ここで、高価値行為選択戦略を説明する。本出願の実施例において、高価値行為選択戦略は、モデルゲーム行為を決定するための戦略であり、各候補ゲーム行為の行為価値を取得し、行為価値の高さに従って、モデルゲーム行為として、少なくとも2つの候補ゲーム行為から、行為価値が最も高い1つの候補ゲーム行為を選択する。
実際に実施する場合、候補ゲーム行為に対応する行為価値を評価することで、候補ゲーム行為に対応する行為価値の高さを判断し、いくつかの実施例において、候補ゲーム行為に対応する行為価値は、当該候補ゲーム行為を実施した後取得したスコアに従って決定でき、スコアは、殺傷力指数、又は取得した奨励によって表徴でき、例えば、候補ゲーム行為Aが具備する殺傷力指数は95であり、候補ゲーム行為Bが具備する殺傷力指数は80であり、候補ゲーム行為Cが具備する殺傷力指数は65であれば、高価値行為選択戦略に従って、モデルゲーム行為として、行為価値が最も高い(殺傷力指数が最も高い)候補ゲーム行為Aを選択する。また、例えば、候補ゲーム行為Dを実施した後取得した奨励は100仮想通貨であり、候補ゲーム行為Eを実施した後取得した奨励は200仮想通貨であり、候補ゲーム行為Fを実施した後取得した奨励は150仮想通貨であれば、高価値行為選択戦略に従って、モデルゲーム行為として、行為価値が最も高い(奨励が最も高い)候補ゲーム行為Eを選択する。
現在選択戦略が高確率行為選択戦略であれば、当該ステップは、選択確率が最も高い候補ゲーム行為をモデルゲーム行為とする。例えば、3つの候補ゲーム行為として、ゲームスキルAのリリース、ゲームスキルBのリリース及びゲームスキルCのリリースについて、その選択確率は順次に70%、20%及び10%であり、そうすれば、当該ステップは選択確率が最も高いゲームスキルAのリリースをモデルゲーム行為とする。
本出願の実施例は、ε―greedy戦略を利用してモデルゲーム行為を選択し、異なる行為選択戦略に対して相応的なモデルゲーム行為の選択を実行することで、行為モデルの最適化持続能力を向上させ、さらに、行為モデルの、モデルゲーム行為に対する選択精度を高める。
実際の応用において、リアルゲームユーザのユーザゲームデータを引き続いて取り込んで、行為モデルのモデルゲームデータを取得することで、行為モデルに対してパラメータ更新及び最適化を持続的に行うことができる。図8は、本出願の実施例において、行為モデルに対してモデル最適化を行うフロー概略図を模式的に示す。図8に示すように、以上の各実施例に基づき、行為モデルに対してモデル最適化を行う方法は以下のステップを含み、
ステップS810:モデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成する。
当該ステップにおいて、まず、1つのゲームシーン内の少なくとも1つのゲームラウンド(例えば、ターン制ゲームにおける1つのゲームターン)を決定して、各ゲームラウンドのゲーム順番情報を取得する。
そして、1つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成する。
最後、ゲーム順番情報に基づき、各ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、モデル決定情報ペアシーケンスを、ゲームシーンに対応するモデルゲームサンプルとする。
モデル決定情報ペアシーケンスをモデルゲームサンプルとすることで、サンプルの表徴能力を向上させ、トレーニング過程で、複数の連続行為の間の内在関連特徴をよりよく学習し、よりよいモデルトレーニング効果を取得できる。
例えば、1つのゲームシーンに3つのゲームラウンドが含まれると、各ゲームラウンドは相応的に、モデル決定情報ペア(s、a)、(s、a)、及び(s、a)をそれぞれ決定できる。Sはモデルゲーム状態情報を示し、aはモデルゲーム行為情報を示す。当該3つのモデル決定情報ペアは、ゲームラウンドの先後順序に従って配列されることで、1つのモデル決定情報ペアシーケンス{s、a、s、a、s、a}を構成でき、当該モデル決定情報ペアシーケンスを、当該ゲームシーンに対応するモデルゲームサンプルとする。
ステップS820:ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定する。
行為モデルの模倣学習オブジェクトとして、当該ステップは、ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲームサンプルを取得する。
モデルゲームサンプルの取得方式に類似して、当該ステップは、まず、ユーザゲームデータに基づき、1つのゲームシーン内の少なくとも1つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得する。
そして、1つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成する。
最後、ゲーム順番情報に基づき、各ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、ユーザ決定情報ペアシーケンスを、ゲームシーンに対応するユーザゲームサンプルとする。
ステップS830:モデルゲームサンプル及びユーザゲームサンプルをトレーニングサンプルとし、トレーニングサンプルを識別モデルに入力する。
いくつかの実施例において、当該ステップはトレーニングサンプルに対してベクトル化処理を行って、識別モデルに入力する方法は以下のステップを含み、
ゲーム状態情報(モデルゲーム状態情報又はユーザゲーム状態情報であってもよい)に対応する第1の特徴ベクトル、及びゲーム行為情報(モデルゲーム行為情報又はユーザゲーム行為情報であってもよい)に対応する第2の特徴ベクトルを取得する。例えば、第1の特徴ベクトルは、38次元ベクトルであり、第2の特徴ベクトルは、8次元ベクトルである。
第1の特徴ベクトル及び第2の特徴ベクトルに対して接合処理を行うことで、決定情報ペア(モデル決定情報ペア又はユーザ決定情報ペアであってもよい)のサンプル特徴ベクトルを取得する。サンプル特徴ベクトル、例えば、第1の特徴ベクトルが前にあり、第2の特徴ベクトルが後ろにあるという順序に従って接合された46次元ベクトルである。
ゲーム順番に従って、トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力する。
トレーニングサンプルにおける決定情報ペアに対してベクトル化処理を行うことで、形式が統一されたサンプル特徴ベクトルを取得でき、そして、順次に識別モデルに入力することで、識別モデルの識別効率を向上させ、モデルのトレーニング効率を高めるとともに、計算リソースの消費を低減させる。
ステップS840:識別モデルがトレーニングサンプルに対してマッピング処理を行うことで、サンプル識別情報を取得する。
サンプル識別情報は、トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するための情報である。
いくつかの実施例において、当該ステップにおいてサンプル識別情報を取得する方法は、以下のステップを含み、
トレーニングサンプルにおける決定情報ペアの情報ペア数を取得する。例えば、情報ペア数はTである。
識別モデルが各決定情報ペアのサンプル特徴ベクトルに対してマッピング処理を行うことで、各決定情報ペアの情報ペア分類確率を取得する。例えば、各決定情報ペアの情報ペア分類確率はそれぞれdであり、tの値は1~Tである。
情報ペア数及び情報ペア分類確率に基づき、トレーニングサンプルのサンプル分類確率を決定し、サンプル分類確率をサンプル識別情報とする。例えば、各情報ペア分類確率の平均値
Figure 2023502860000012
を直接的にサンプル分類確率とする。サンプル分類確率が0.5より大きいと、トレーニングサンプルをユーザゲームサンプルに識別できる。サンプル分類確率が0.5以下であると、トレーニングサンプルをモデルゲームサンプルに識別できる。
いくつかの決定情報ペアの情報ペア分類確率に基づき、サンプル分類確率を算出し、識別モデルの識別正確率を向上させ、識別結果の異常を避ける。
ステップS850:サンプル識別情報に基づき、行為モデルと識別モデルとのモデルパラメータを更新する。
行為モデル及び識別モデルは、ジェネレーティブな敵対的ネットワークを構成でき、敵対的過程で、両者のモデルパラメータを継続的に更新する。識別モデルは自体の識別能力をできるだけ向上させ、モデルパラメータに対する更新及び最適化によって、サンプル識別情報の正確さを向上させる。行為モデルは自体の模倣能力をできるだけ向上させ、モデルパラメータに対する更新及び最適化によって、ユーザゲームサンプルの確率分布に近接するモデルゲームサンプルを出力して、識別モデルがトレーニングサンプルのサンプルタイプを正確に識別し難いようにする。敵対的学習を利用してモデルパラメータに対して反復更新を行うことで、リアルゲームユーザの決定行為特点に近接する行為モデルを取得できる。
いくつかの実施例において、当該ステップにおいて、まず、ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待が含まれる目的関数を決定し、そして、サンプル識別情報及び目的関数に基づき、行為モデルと識別モデルとのモデルパラメータを交互に更新する。
実際に実施する場合、行為モデル及び識別モデルは敵対的ゲームの方式でパラメータを更新し、両者の共同の目的関数は、ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待を含む。例えば、ユーザサンプル期待は、
Figure 2023502860000013
として示し、モデルサンプル期待は、
Figure 2023502860000014
として示す。
Figure 2023502860000015
はユーザゲームサンプルの確率分布を示し、
Figure 2023502860000016
は、ユーザゲームサンプルの、識別モデルでのサンプル分類確率を示す。
Figure 2023502860000017
は、モデルゲームサンプルの確率分布を示し、
Figure 2023502860000018
は、モデルゲームサンプルの、識別モデルでのサンプル分類確率を示す。
行為モデルと識別モデルとのパラメータ更新過程は交互に行われてもよい。例えば、行為モデルのモデルパラメータを1回更新した後、識別モデルのモデルパラメータをすぐに1回更新し、このように交互に往復して、モデルパラメータの反復更新を継続的に行う。また、例えば、モデルのトレーニング効率を向上させるために、行為モデルに対して、反復更新を連続的に複数回行ってから、識別モデルを1回更新してもよい。
識別モデルは、トレーニングサンプルにおけるユーザゲームサンプル及びモデルゲームサンプルをできるだけ正確的に識別することを、トレーニング目的とする。そのため、識別モデルによるトレーニングラウンドで、行為モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、識別モデルのモデルパラメータを更新して、ユーザゲームサンプルのサンプル分類確率を大きくして、モデルゲームサンプルのサンプル分類確率を低減させる。
行為モデルは、識別モデルがトレーニングサンプルにおけるユーザゲームサンプル及びモデルゲームサンプルを正確に識別し難いように、識別モデルをできるだけ騙すことを、トレーニング目的とする。そのため、行為モデルによるトレーニングラウンドで、識別モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、行為モデルのモデルパラメータを更新して、モデルゲームサンプルのサンプル分類確率を大きくする。
本出願の実施例が提供する、行為モデルに対するモデル最適化方法において、ジェネレーティブな敵対的模倣学習を利用してリアルゲームユーザのゲームデータから、ユーザゲームサンプルの確率分布を学習し、リアルゲームユーザ行為特点に近接するか、又はリアルゲームユーザ行為期待に合うゲーム行為戦略とするように、行為モデルを導く。ジェネレーティブな敵対的模倣学習によるトレーニング方法は、モデルトレーニング過程における計算リソースの消費を低減させる上に、モデルのトレーニング効率を向上させ、よりよいトレーニング効果を取得できる。
以下は、1ターン制ゲームの応用シーンを結合して以上の実施例の行為モデルのトレーニング方法を説明する。
図9は、本出願の実施例で使用する行為モデルのネットワークアーキテクチャ概略図を模式的に示す。図9に示すように、当該行為モデルは主に多層感知ネットワーク構成であり、モデルの入力は、現在のゲームターンのゲーム状態特徴Stateである。例えば、ゲーム状態特徴Stateは38次元の特徴ベクトルとして示し、それに関する情報は、例えば、以下を含み、
a)キャラクタの基本的な属性、例えば、ヒットポイント、物理攻撃、魔法攻撃、魔法、治療、物理防御、魔法防御、速度、封印命中、封印対抗など。
b)キャラクタの職業。
c)対戦の陣形特徴。
d)現在対戦のターン数。
e)現在利用可能なスキル。
行為モデルの構成全体は主に、次元がそれぞれ1024、512、256である3つの完全接続層FC910、FC920及びFC930と、出力ベクトル次元が8である1つの完全接続出力層940を含み、完全接続出力層940は合計、8種類のゲームスキルskill_1、skill_2……skill_8の選択確率を出力できる。完全接続出力層940から出力された8次元ベクトルと、次元が8である1つのスキル選別ベクトル950とを乗算し、結果として、出力ベクトル次元が8であるスキル出力層960を取得し、スキル出力層960から出力された結果は、ゲームにおけるゲームキャラクタの各スキルの、当該ターンでのリリースの確率分布である。
完全接続出力層940の出力ベクトル次元は8であると、ゲームキャラクタのスキルが8種類以下であることを意味する。ターン制ゲームにおいて、あるターンで、ゲームキャラクタのあるスキルをリリースした後、別の効果を有し、例えば、プレイヤーを休憩状態に入れさせて、次のターンでスキルをリリースできず、又は、ゲームキャラクタのヒットポイントがある状態の以下である際、ある特定のスキルを使用できないなどの場合が存在するため、行為モデルが予測して出力した各スキルの予測確率に、スキル選別ベクトルを掛けることで、各ターンでゲームキャラクタが実際に選択できるスキルを選別する。次元が8であるスキル選別ベクトルは、数値が0又は1である8つの要素からなり、0又は1の値は、各ターンでゲームクライアントが送信した当該ターンの利用可能なスキルリストによって决定される。あるロールプレイングターン制ゲームにおいて、性別が男であり、職業が力量であるゲームキャラクタを例として、当該ゲームキャラクタのスキルリストは[「炎陽衝撃」、「腥風三連斬」、「生命感知」、「血略奪」、「暗影潜伏」、及び「奥義・地裂隕星」]という、合計6つの主動スキルを含む。当該ゲームキャラクタの、あるゲームターンでのスキル選別ベクトルが[1、1、1、0、1、1、0、0]であれば、ゲーム選別ベクトルの4番目の位置の値が0であることは、当該キャラクタの、当該ターンでの4番目の「血の略奪」というスキルが使用不能であることを意味し、7番目の位置及び8番目の位置での値を0に充填することは、当該キャラクタが6つの主動スキルしかリリースできないためである。他の要素の値が1であることは、当該キャラクタの、当該ターンでの他のスキルはいずれも使用可能な状態にあることを意味する。このような方式で、行為モデルにスキル選別ベクトルを導入することで、異なる戦闘ターンで異なるゲームキャラクタが選択できるゲームスキルを選別し、行為モデルの予測精度を向上させるとともに、無効なスキル選択を避ける。
図10は、本出願の実施例において、使用する識別モデルのネットワークアーキテクチャ概略図を模式的に示す。図10に示すように、識別モデルの入力は、ゲームキャラクタのあるゲーム軌跡データであり、例えば、38次元のゲーム状態特徴s及び8次元のゲーム行為特徴aから接合された特徴ベクトルである。識別モデルの入力は、リアルゲームユーザのstate―action軌跡データであってもよく、行為モデルが生成したstate―action軌跡データであってもよい。識別モデルの構成全体は主に、次元がそれぞれ1024、512、256である3つの完全接続層FC1010、FC1020及びFC1030を含み、識別モデルの出力層が2次元の分類器1040であり、モデルが予測した分類確率が0.5より大きい場合、識別モデルは、モデルから入力された軌跡データがリアルプレイヤーstate―action軌跡データRealであると判定し、分類確率が0.5より小さい場合、識別モデルは、入力された軌跡データが、行為モデルが生成したstate―action軌跡データFakeであると判定する。
モデルのトレーニング過程で、識別モデルは、行為モデルが生成した軌跡データ
Figure 2023502860000019
と、リアルゲームユーザの軌跡データ
Figure 2023502860000020
とをできるだけ区別することをトレーニング目的とし、即ち、トレーニングサンプルに正確なラベルを割り当てる確率が最大であるように、
Figure 2023502860000021
を最大化し、そのうち、
Figure 2023502860000022
であり、
Figure 2023502860000023
は、行為モデルの、入力した決定情報ペア
Figure 2023502860000024
に対する出力確率である。行為モデルは、識別モデルを騙すように、リアルゲームユーザのリアルゲーム軌跡データ分布に近接するサンプルをできるだけ生成することを、トレーニング目的とし、即ち、
Figure 2023502860000025
を最小化する。ジェネレーティブな敵対的模倣学習は本質的に、minmax敵対的ゲームを継続的に行って、目的関数の式は以下の通り、
Figure 2023502860000026
モデルトレーニングの初期で、トレーニングが開始したばかりで、行為モデルの模倣能力が悪いため、出力した結果は明らかに、リアルゲームユーザのゲームデータとの差が大きく、そのため、識別モデルは高い置信度で真偽を判定でき、出力した確率値は1又は0に近接し、生成したネットワークの勾配が消える恐れがある。この場合、行為モデルのトレーニングラウンドで、目的関数を最小化
Figure 2023502860000027
から、最大化
Figure 2023502860000028
に置き換えて、これによって、トレーニング初期で大きい勾配を提供できる。
行為モデルと識別モデルとからなるジェネレーティブな敵対的ネットワークを確立した後、モデルトレーニングを開始できる。
まず、行為モデルと識別モデルとの重みパラメータをランダム的に初期化し、ニューラルネットワークモデルの重みをランダム的に初期化することで、モデルの収束速度及びパフォーマンスを加速する。
そして、1ラウンドゲームの現在ゲームターンのゲーム状態特徴stateを重みパラメータが
Figure 2023502860000029
である行為モデルの入力とし、行為モデルが出力するゲーム行為特徴actionを、当該ゲームターンでゲームキャラクタがリリースしたスキルとし、ゲーム環境と行為モデルとの継続的なインタラクションによって、状態行為シーケンス
Figure 2023502860000030

を生成でき、当該方式で、Nラウンドのゲームの対戦をすれば、行為モデルから生成された軌跡データセット
Figure 2023502860000031
を取得できる。
交差エントロピー損失関数を利用して、識別モデルのモデルパラメータを更新し、リアルゲームユーザのリアルゲーム軌跡に対応する
Figure 2023502860000032
の出力確率を大きくして、行為モデルから生成された生成ゲーム軌跡に対応する
Figure 2023502860000033
の出力確率を低減させる。
深層強化学習における戦略勾配アルゴリズム(policy gradient)を採用して、行為モデルのモデルパラメータを更新することで、
Figure 2023502860000034
の出力確率を大きくする。
強化学習の目的関数は以下の通りであり、
Figure 2023502860000035

そのうち、
Figure 2023502860000036
は、1組の状態及び行為シーケンスを示す。
Figure 2023502860000037
は、シーケンス
Figure 2023502860000038
の累積奨励rewardの和を示す。
Figure 2023502860000039
は、シーケンス
Figure 2023502860000040
の出現確率を示す。
戦略勾配方法は、累積奨励の期待が最大であるように、戦略関数を示すための最適な1組のパラメータ
Figure 2023502860000041
を探し出すことを、目的とする。
即ち、
Figure 2023502860000042
最適パラメータ
Figure 2023502860000043
の検索過程は、最適戦略又は最適経路の検索であり、戦略勾配アルゴリズムにおいて、勾配降下アルゴリズムを利用してパラメータの最適化更新を行うことで、解决される。
Figure 2023502860000044
そのうち、
Figure 2023502860000045
は学習率である。
目的関数の勾配は以下のように算出される。
Figure 2023502860000046
そのうち、勾配の計算を、
Figure 2023502860000047
の期待への解求めに変換し、モンテカルロ法を利用して近似推定を行って、即ち、現在戦略に基づき、N本の軌跡をサンプリングすることで、目的関数の勾配の近似解を求める。
Figure 2023502860000048
ジェネレーティブな敵対的模倣学習において、行為モデルは戦略勾配アルゴリズムを採用して、パラメータを更新する場合、
Figure 2023502860000049
は直接的にシステムから与えられず、識別モデルの出力
Figure 2023502860000050

Figure 2023502860000051
として、シーケンス
Figure 2023502860000052
のrewardの和を示すため、行為モデルのパラメータ更新は以下の通りである。
Figure 2023502860000053
本出願の実施例が提供する、行為モデルをトレーニングする技術案に基づき、電子ゲームにリアルゲームユーザ行為決定習慣に近接するか、又はリアルゲームユーザ行為決定期待に合うゲームAIを配置でき、当該ゲームAIはNPCキャラクタとして、ゲームの実行過程に参加させてもよく、又はテストキャラクタとして、ゲームの開発過程で自動化テストを行わせてもよい。
ここで、図面は特定の順序で本出願の実施例の方法の各ステップを記載したが、当該特定の順序に従ってこれらのステップを実行しなければならないわけでなく、又は示した全てのステップを実行しなければ、期待結果を実現できないわけでもない。付加的又は選択的に、いくつかのステップを省略して、複数のステップを1つのステップに合併して実行してもよいし、及び/又は1つのステップを複数のステップに分解して実行してもよい。
以下は、本出願の実施例の装置実施例を紹介し、前記装置は、本出願の実施例の行為モデルのトレーニング方法、又は人工知能によるゲーム行為決定方法を実行できる。本出願の装置実施例の未開示の細部について、本出願の上記の方法実施例の部分を参照すればよい。
図11は、本出願の実施例の情報処理装置の構成ブロック図を模式的に示す。図11に示すように、情報処理装置1100は主に、
ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュール1110と、
ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュール1120と、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュール1130と、
モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュール1140と、を含む。
本出願の実施例において、特徴抽出モジュール1120は、
ゲームシーンにおけるシーン状態情報、及びゲーム行為主体の主体状態情報を取得するように配置される情報取得ユニットと、
シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得するように配置される特徴抽出ユニットと、
シーン特徴ベクトル及び主体特徴ベクトルに対して接合処理を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置されるベクトル接合ユニットと、を含む。
いくつかの実施例において、マッピング処理モジュール1130は、
ゲーム行為主体と関連する少なくとも2つの候補ゲーム行為を決定するように配置される行為決定ユニットと、
行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、各種の候補ゲーム行為の選択確率を取得するように配置されるマッピング処理ユニットと、
各種の候補ゲーム行為の行為利用可能な状態情報を取得し、行為利用可能な状態情報に基づき、候補ゲーム行為に対応する行為選別情報を決定するように配置される行為選別ユニットと、
行為選別情報に基づき、候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とするように配置される確率調整ユニットと、を含む。
いくつかの実施例において、確率調整ユニットは、
前記行為選別情報に基づき、前記候補ゲーム行為の行為タイプを決定するように配置される行為決定サブユニットであって、前記行為タイプは利用可能な行為及び利用不能な行為を含む行為決定サブユニットと、
前記候補ゲーム行為の行為タイプが利用不能な行為であると、その選択確率を所定確率に調整するように配置される確率調整サブユニットと、を含む。
いくつかの実施例において、行為選択モジュール1140は、
ランダム行為選択戦略の第1の確率及び高確率行為選択戦略の第2の確率をそれぞれ決定するように配置される確率決定ユニットと、
第1の確率及び第2の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定するように配置される戦略決定ユニットと、
モデル選択戦略がランダム行為選択戦略であれば、モデルゲーム行為として、少なくとも2つの候補ゲーム行為から1つの候補ゲーム行為をランダムに選択するように配置される第1の選択ユニットと、
モデル選択戦略が高価値行為選択戦略であれば、モデルゲーム行為として、少なくとも2つの候補ゲーム行為から、行為価値が最も高い1つの候補ゲーム行為を選択するように配置される第2の選択ユニットと、を含む。
いくつかの実施例において、情報処理装置は、
モデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成するように配置されるモデルサンプル取得モジュールと、
ゲーム行為主体と関連するユーザゲームデータを取得し、ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定するように配置されるユーザサンプル取得モジュールと、
モデルゲームサンプル及びユーザゲームサンプルをトレーニングサンプルとし、トレーニングサンプルを識別モデルに入力するように配置されるサンプル入力モジュールと、
識別モデルによりトレーニングサンプルに対してマッピング処理を行うことで、トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するためのサンプル識別情報を取得するように配置されるサンプル識別モジュールと、
サンプル識別情報に基づき、行為モデルと識別モデルとのモデルパラメータを更新するように配置されるパラメータ更新モジュールと、をさらに含む。
いくつかの実施例において、モデルサンプル取得モジュールは、
1つのゲームシーン内の少なくとも1つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得するように配置されるモデルラウンド決定ユニットと、
1つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成するように配置されるモデル情報取得ユニットと、
ゲーム順番情報に基づき、各ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、モデル決定情報ペアシーケンスを、ゲームシーンに対応するモデルゲームサンプルとするように配置されるモデルサンプル取得ユニットと、を含む。
いくつかの実施例において、ユーザサンプル取得モジュールは、
ユーザゲームデータに基づき、1つのゲームシーン内の少なくとも1つのゲームラウンドを決定し、各ゲームラウンドのゲーム順番情報を取得するように配置されるユーザラウンド決定ユニットと、
1つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成するように配置されるユーザ情報取得ユニットと、
ゲーム順番情報に基づき、各ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、ユーザ決定情報ペアシーケンスをゲームシーンに対応するユーザゲームサンプルとするように配置されるユーザサンプル取得ユニットと、を含む。
いくつかの実施例において、サンプル入力モジュールは、
トレーニングサンプルから、ゲーム順番に従って配列された決定情報ペアを取得し、各決定情報ペアにおけるゲーム状態情報及びゲーム行為情報をそれぞれ取得するように配置されるサンプル情報取得ユニットと、
ゲーム状態情報に対応する第1の特徴ベクトル、及びゲーム行為情報に対応する第2の特徴ベクトルを取得するように配置されるサンプルベクトル取得ユニットと、
第1の特徴ベクトル及び第2の特徴ベクトルに対して接合処理を行うことで、決定情報ペアのサンプル特徴ベクトルを取得するように配置されるサンプルベクトル接合ユニットと、
ゲーム順番に従って、トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力するように配置されるサンプルベクトル入力ユニットと、を含む。
いくつかの実施例において、サンプル識別モジュールは、
トレーニングサンプルにおける決定情報ペアの情報ペア数を取得するように配置される情報ペア数取得ユニットと、
識別モデルによって各決定情報ペアのサンプル特徴ベクトルに対して、マッピング処理を行うことで、各決定情報ペアの情報ペア分類確率を取得するように配置される情報ペア確率決定ユニットと、
情報ペア数及び情報ペア分類確率に基づき、トレーニングサンプルのサンプル分類確率を決定し、サンプル分類確率をサンプル識別情報とするように配置されるサンプル確率決定ユニットと、を含む。
いくつかの実施例において、パラメータ更新モジュールは、
ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待が含まれる目的関数を決定するように配置される関数決定ユニットと、
サンプル識別情報及び目的関数に基づき、行為モデルと識別モデルとのモデルパラメータを交互に更新するように配置されるパラメータ更新ユニットと、を含む。
いくつかの実施例において、パラメータ更新ユニットは、
行為モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、識別モデルのモデルパラメータを更新することで、ユーザゲームサンプルのサンプル分類確率を大きくして、モデルゲームサンプルのサンプル分類確率を低減させるように配置される行為モデル更新サブユニットと、
識別モデルのモデルパラメータを固定し、サンプル識別情報及び目的関数に基づき、行為モデルのモデルパラメータを更新することで、モデルゲームサンプルのサンプル分類確率を大きくするように配置される識別モデル更新サブユニットと、を含む。
本出願の各実施例が提供する情報処理装置の細部について、対応する方法実施例において詳しく記載したため、ここで、贅言しない。
図12は、本出願の実施例が提供する電子装置のコンピュータシステムの構成概略図である。
ここで、図12の電子装置のコンピュータシステム1200は、本出願の実施例の機能及び使用範囲に対して何らかの限定もせず、1つの例示に過ぎない。
図12に示すように、コンピュータシステム1200は、読み取り専用メモリ(Read―Only Memory、ROM)1202に記憶されるプログラム、又は記憶部1208から、ランダムアクセスメモリ(Random
Access Memory、RAM)1203に読み込んだプログラムに基づき、各種の適切な動作及び処理を実行できる中央処理ユニット(Central Processing
Unit、CPU)1201を含む。RAM 1203には、システム操作に必要な各種のプログラム及びデータがさらに記憶される。CPU 1201、ROM 1202及びRAM
1203はバス1204によって互いに接続される。入力/出力(Input /Output、I/O)インターフェース1205もバス1204に接続される。
キーボード、マウスなどを含む入力部1206、例えば、陰極線管(Cathode
Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)、及びスピーカなどを含む出力部1207、ハードディスクなどを含む記憶部1208、及び、例えばLAN(Local Area Network、ローカルネットワーク)カード、変調復調器などのネットワークインターフェースカードを含む通信部1209という構成要素はI/Oインターフェース1205に接続される。通信部1209は、インターネットのようなネットワークによって通信処理を実行する。ドライブ1210も必要に応じてI/Oインターフェース1205に接続される。取り外し可能な媒体1211、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどは、必要に応じてドライブ1210に搭載されることで、その中から読み出されたコンピュータプログラムは、必要に応じて記憶部1208にインストールされる。
本出願の実施例によれば、各方法のフローチャートに記載の過程をコンピュータソフトウェアプログラムとして実現できる。例えば、本出願の実施例は、コンピュータ可読記憶媒体にキャリアされるコンピュータプログラムが含まれるコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートの方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信部1209を介してネットワークからダウンロードされてインストールされ、及び/又は、取り外し可能な媒体1211からインストールされる。当該コンピュータプログラムは中央処理ユニット(CPU)1201に実行される場合、本出願のシステムに限定される各種の機能を実行する。
ここで、本出願の実施例のコンピュータ可読記憶媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置若しくはデバイス、或いは以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体の例は、1つ又は複数のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(Erasable Programmable Read-Only Memory、EPROM)、フラッシュメモリ、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ(Compact Disc
Read-Only Memory、CD―ROM)、光メモリ、磁気メモリ、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。本出願の実施例において、コンピュータ可読記憶媒体はプログラムを包含するか、又は記憶する任意の有形媒体であってもよく、当該プログラムは、指令実行システム、装置又はデバイスに使用されてもよいし、又は結合されて使用されてもよい。本出願の実施例において、コンピュータ可読信号媒体は、ベースバンド、又はキャリアの一部として伝播されるデータ信号を含み、コンピュータ可読プログラムコードがキャリアされる。このように伝播されるデータ信号に対して、多種の形態を採用でき、電磁信号、光信号又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の、任意のコンピュータ可読記憶媒体であってもよく、当該コンピュータ可読記憶媒体は、指令実行システム、装置又はデバイスに使用され、又は結合されて使用されるプログラムを送信、伝播又は伝送する。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、無線、有線など、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。
図面のフローチャート及びブロック図は、本出願の各種実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント、又はコードの一部を代表でき、上記のモジュール、プログラムセグメント、又はコードの一部は、規定の論理機能を実現するための1つ又は複数の実行可能な指令を含む。ここで、置換としてのいくつかの実現において、ブロックに明記される機能を図面と異なる順序で発生させてもよい。例えば、連続的に示した2つのブロックは、実際、基本的に並行実行されてもよく、逆の順序に従って実行されてもよく、係る機能に基づき決定される。また、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、ハードウェアによる、規定の機能又は操作を実行するための専用システムを利用して、実現されてもよいし、専用ハードウェアとコンピュータ指令との組み合わせを利用して、実現されてもよい。
ここで、以上の詳しい記載において、動作実行のための装置のいくつかのモジュール又はユニットを言及したが、このような区別は強制的なものではない。実際、本出願の実施形態によれば、1つのモジュール又はユニットにおいて、以上の記載の2つ又は複数のモジュール又はユニットの特徴及び機能を具体化できる。一方、複数のモジュール又はユニットにより具体化するように、以上の記載の1つモジュール又はユニットの特徴及び機能を分割してもよい。
以上の実施形態の記載によって、ここに記載の例示的な実施形態はソフトウェアによって実現されてもよいし、ソフトウェアに必要なハードウェアを結合する方式で実現されてもよい。従って、本出願の実施形態による技術案は、ソフトウェア製品の形態として体現され、当該ソフトウェア製品は非揮発性記憶媒体(CD―ROM、Uディスク、モバイルハードディスクなど)、又はネットワークに記憶されて、1台のコンピューティング装置(パーソナルコンピュータ、サーバー、タッチ制御端末、又はネットワーク装置など)に、本出願の実施形態による方法を実行させる若干の指令を含む。
当業者は、明細書を考慮し、ここに開示の発明を実践した後、本出願の他の実施解決策を容易に想到し得る。本出願は、本出願の任意の変形、用途又は適切な変更をカバーするように意図され、これらの変形、用途又は適切な変更は、本出願の一般的な原理に従うとともに、本出願が開示していない当分野の公知常識又は通常の技術手段も含む。
ここで、本出願は、以上に記載され、図示された精確な構成に限定されず、その範囲から逸脱しない場合、各種の修正及び変更を行うことができる。本出願の範囲は、添付の請求項に限定される。
本出願の実施例では、電子装置は、ゲームシーンにおけるゲーム行為主体を決定し、ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得し、ゲームシーンに対して特徴抽出を行うことで、ゲーム行為主体と関連するモデルゲーム状態情報を取得し、行為モデルによって、モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得し、モデルゲーム行為選択情報に基づき、少なくとも2つの候補ゲーム行為から、ゲーム行為主体が実行するモデルゲーム行為を選択する。このように、ゲームに適用され、ゲームAIを設置する場合、ゲームAIの決定能力を大幅に向上させ、ゲームAIに、より高い擬人化効果及び知能化レベルを具備させ、ゲームユーザのゲームエクスペリエンスを最適化する。

Claims (15)

  1. 電子装置が実行する情報処理方法であって、
    ゲームシーンにおけるゲーム行為主体を決定し、前記ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するステップと、
    前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、
    前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するステップと、
    前記モデルゲーム行為選択情報に基づき、前記少なくとも2つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択するステップと、を含む、
    情報処理方法。
  2. 前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得する前記ステップは、
    前記ゲームシーンにおけるシーン状態情報及び前記ゲーム行為主体の主体状態情報を取得するステップと、
    前記シーン状態情報に対して特徴抽出を行うことで、シーン特徴ベクトルを取得し、前記主体状態情報に対して特徴抽出を行うことで、主体特徴ベクトルを取得するステップと、
    前記シーン特徴ベクトル及び前記主体特徴ベクトルに対して接合処理を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するステップと、を含む、
    請求項1に記載の情報処理方法。
  3. 前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得する前記ステップは、
    前記ゲーム行為主体と関連する少なくとも2つの候補ゲーム行為を決定するステップと、
    前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、各種の前記候補ゲーム行為の選択確率を取得するステップと、
    各種の前記候補ゲーム行為の行為利用可能な状態情報を取得し、前記行為利用可能な状態情報に基づき、前記候補ゲーム行為に対応する行為選別情報を決定するステップと、
    前記行為選別情報に基づき、前記候補ゲーム行為の選択確率を調整し、調整後の選択確率をモデルゲーム行為選択情報とするステップと、を含む、
    請求項1に記載の情報処理方法。
  4. 前記行為選別情報に基づき、前記候補ゲーム行為の選択確率を調整する前記ステップは、
    前記行為選別情報に基づき、前記候補ゲーム行為の行為タイプを決定するステップであって、前記行為タイプは、利用可能な行為及び利用不能な行為を含むステップと、
    前記候補ゲーム行為の行為タイプが利用不能な行為であると、前記候補ゲーム行為の選択確率を所定確率に調整するステップと、を含む、
    請求項3に記載の情報処理方法。
  5. 前記モデルゲーム行為選択情報に基づき、前記少なくとも2つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択する前記ステップは、
    ランダム行為選択戦略の第1の確率及び高確率行為選択戦略の第2の確率をそれぞれ決定するステップと、
    前記第1の確率及び前記第2の確率に基づき、モデルゲーム行為を選択するためのモデル選択戦略を決定するステップと、
    前記モデル選択戦略がランダム行為選択戦略であると、モデルゲーム行為として、前記少なくとも2つの候補ゲーム行為から1つの候補ゲーム行為をランダムに選択するステップと、
    前記モデル選択戦略が高価値行為選択戦略であると、モデルゲーム行為として、前記少なくとも2つの候補ゲーム行為から、行為価値が最も高い1つの候補ゲーム行為を選択するステップと、を含む、
    請求項1に記載の情報処理方法。
  6. 当該情報処理方法は、
    前記モデルゲーム状態情報と前記モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成するステップと、
    前記ゲーム行為主体と関連するユーザゲームデータを取得し、前記ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定するステップと、
    前記モデルゲームサンプル及び前記ユーザゲームサンプルをトレーニングサンプルとし、前記トレーニングサンプルを識別モデルに入力するステップと、
    前記識別モデルによって、前記トレーニングサンプルに対してマッピング処理を行うことで、前記トレーニングサンプルをモデルゲームサンプル又はユーザゲームサンプルに識別するためのサンプル識別情報を取得するステップと、
    前記サンプル識別情報に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを更新するステップと、をさらに含む、
    請求項1に記載の情報処理方法。
  7. 前記モデルゲーム状態情報と前記モデルゲーム行為のモデルゲーム行為情報とをモデルゲームサンプルに構成する前記ステップは、
    1つのゲームシーン内の少なくとも1つのゲームラウンドを決定し、各前記ゲームラウンドのゲーム順番情報を取得するステップと、
    1つのゲームラウンドに対応するモデルゲーム状態情報と、モデルゲーム行為のモデルゲーム行為情報とをモデル決定情報ペアに構成するステップと、
    前記ゲーム順番情報に基づき、各前記ゲームラウンドのモデル決定情報ペアをモデル決定情報ペアシーケンスに構成し、前記モデル決定情報ペアシーケンスを前記ゲームシーンに対応するモデルゲームサンプルとするステップと、を含む、
    請求項6に記載の情報処理方法。
  8. 前記ユーザゲームデータに基づき、ユーザゲーム状態情報とユーザゲーム行為情報とからなるユーザゲームサンプルを決定する前記ステップは、
    前記ユーザゲームデータに基づき、1つのゲームシーン内の少なくとも1つのゲームラウンドを決定し、各前記ゲームラウンドのゲーム順番情報を取得するステップと、
    1つのゲームラウンドに対応するユーザゲーム状態情報とユーザゲーム行為情報とをユーザ決定情報ペアに構成するステップと、
    前記ゲーム順番情報に基づき、各前記ゲームラウンドのユーザ決定情報ペアをユーザ決定情報ペアシーケンスに構成し、前記ユーザ決定情報ペアシーケンスを、前記ゲームシーンに対応するユーザゲームサンプルとするステップと、を含む、
    請求項6に記載の情報処理方法。
  9. 前記トレーニングサンプルを識別モデルに入力するステップは、
    前記トレーニングサンプルから、ゲーム順番に従って配列された決定情報ペアを取得し、各前記決定情報ペアにおけるゲーム状態情報及びゲーム行為情報をそれぞれ取得するステップと、
    前記ゲーム状態情報に対応する第1の特徴ベクトル、及び前記ゲーム行為情報に対応する第2の特徴ベクトルを取得するステップと、
    前記第1の特徴ベクトル及び前記第2の特徴ベクトルに対して接合処理を行うことで、前記決定情報ペアのサンプル特徴ベクトルを取得するするステップと、
    前記ゲーム順番に従って、前記トレーニングサンプルにおける各決定情報ペアのサンプル特徴ベクトルを順次に識別モデルに入力するステップと、を含む、
    請求項6に記載の情報処理方法。
  10. 前記識別モデルによって、前記トレーニングサンプルに対してマッピング処理を行うことで、サンプル識別情報を取得するステップは、
    前記トレーニングサンプルにおける決定情報ペアの情報ペア数を取得するステップと、
    前記識別モデルによって、各前記決定情報ペアのサンプル特徴ベクトルに対してマッピング処理を行うことで、各前記決定情報ペアの情報ペア分類確率を取得するステップと、
    前記情報ペア数及び前記情報ペア分類確率に基づき、前記トレーニングサンプルのサンプル分類確率を決定し、前記サンプル分類確率をサンプル識別情報とするステップと、を含む、
    請求項9に記載の情報処理方法。
  11. 前記サンプル識別情報に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを更新する前記ステップは、
    ユーザゲームサンプルに対応するユーザサンプル期待及びモデルゲームサンプルに対応するモデルサンプル期待を含む目的関数を決定するステップと、
    前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを交互に更新するステップと、を含む、
    請求項6に記載の情報処理方法。
  12. 前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルと前記識別モデルとのモデルパラメータを交互に更新するステップは、
    前記行為モデルのモデルパラメータを固定し、前記サンプル識別情報及び前記目的関数に基づき、前記識別モデルのモデルパラメータを更新することで、前記ユーザゲームサンプルのサンプル分類確率を大きくして、前記モデルゲームサンプルのサンプル分類確率を低減させるステップと、
    前記識別モデルのモデルパラメータを固定し、前記サンプル識別情報及び前記目的関数に基づき、前記行為モデルのモデルパラメータを更新することで、前記モデルゲームサンプルのサンプル分類確率を大きくするステップと、を含む、
    請求項11に記載の情報処理方法。
  13. ゲームシーンにおけるゲーム行為主体を決定し、前記ゲーム行為主体がゲーム行為を実行するように制御するための行為モデルを取得するように配置されるモデル取得モジュールと、
    前記ゲームシーンに対して特徴抽出を行うことで、前記ゲーム行為主体と関連するモデルゲーム状態情報を取得するように配置される特徴抽出モジュールと、
    前記行為モデルによって、前記モデルゲーム状態情報に対してマッピング処理を行うことで、少なくとも2つの候補ゲーム行為に対応するモデルゲーム行為選択情報を取得するように配置されるマッピング処理モジュールと、
    前記モデルゲーム行為選択情報に基づき、前記少なくとも2つの候補ゲーム行為から、前記ゲーム行為主体が実行するモデルゲーム行為を選択するように配置される行為選択モジュールと、を含む、
    情報処理装置。
  14. プロセッサによって実行される場合に、請求項1~12のいずれか1項に記載の情報処理方法を実現する、コンピュータプログラム。
  15. プロセッサと、
    前記プロセッサの実行可能な指令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記実行可能な指令を実行することで、請求項1~12のいずれか1項に記載の情報処理方法を実行するように配置される、
    電子装置。
JP2022523836A 2020-02-11 2020-11-06 情報処理方法、装置、コンピュータプログラム及び電子装置 Active JP7399277B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010086291.6 2020-02-11
CN202010086291.6A CN111282267B (zh) 2020-02-11 2020-02-11 信息处理方法、装置、介质及电子设备
PCT/CN2020/127092 WO2021159779A1 (zh) 2020-02-11 2020-11-06 信息处理方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
JP2023502860A true JP2023502860A (ja) 2023-01-26
JP7399277B2 JP7399277B2 (ja) 2023-12-15

Family

ID=71020130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022523836A Active JP7399277B2 (ja) 2020-02-11 2020-11-06 情報処理方法、装置、コンピュータプログラム及び電子装置

Country Status (5)

Country Link
US (1) US20220176248A1 (ja)
JP (1) JP7399277B2 (ja)
KR (1) KR20220080191A (ja)
CN (1) CN111282267B (ja)
WO (1) WO2021159779A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574246B2 (en) * 2020-01-21 2023-02-07 Microsoft Technology Licensing, Llc Updating training examples for artificial intelligence
CN111282267B (zh) * 2020-02-11 2021-08-20 腾讯科技(深圳)有限公司 信息处理方法、装置、介质及电子设备
CN111773732B (zh) * 2020-09-04 2021-01-08 完美世界(北京)软件科技发展有限公司 目标游戏用户的检测方法、装置及设备
CN112905013B (zh) * 2021-02-23 2024-04-26 超参数科技(深圳)有限公司 智能体控制方法、装置、计算机设备和存储介质
CN113144605B (zh) * 2021-03-04 2024-03-08 百果园技术(新加坡)有限公司 一种用户行为模拟方法、装置、电子设备及存储介质
CN112843726B (zh) * 2021-03-15 2024-06-25 网易(杭州)网络有限公司 智能体处理方法及装置
JP7519704B2 (ja) * 2022-02-24 2024-07-22 株式会社Precious Analytics ゲームの評価方法、装置及びプログラム
JP7519703B2 (ja) * 2022-02-24 2024-07-22 株式会社Precious Analytics ゲームの評価方法、装置及びプログラム
CN114768246B (zh) * 2022-06-21 2022-08-30 欢喜时代(深圳)科技有限公司 一种游戏人机互动方法及其***
CN115120983A (zh) * 2022-07-08 2022-09-30 上海纵游网络技术有限公司 一种游戏礼包推送方法、装置、电子设备及存储介质
CN115080445B (zh) * 2022-07-21 2022-12-30 欢喜时代(深圳)科技有限公司 一种游戏测试管理方法及其***
CN115944921B (zh) * 2023-03-13 2023-05-23 腾讯科技(深圳)有限公司 游戏数据处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013252247A (ja) * 2012-06-06 2013-12-19 Kitami Institute Of Technology ロールプレイングゲームの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体
CN107890675A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为实现方法和装置
JP2018063602A (ja) * 2016-10-13 2018-04-19 株式会社 ディー・エヌ・エー Q学習を用いたニューラルネットワークの重み付け調整のためのプログラム、システム、及び方法
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
JP2019195512A (ja) * 2018-05-10 2019-11-14 株式会社Snk 格闘ゲームの学習装置および学習プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3448042B2 (ja) * 2001-10-10 2003-09-16 コナミ株式会社 ゲーム画面表示プログラム、ゲーム画面表示方法及びビデオゲーム装置
CN100481097C (zh) * 2006-08-08 2009-04-22 北京爱航工业公司 一种有限实景互动游戏***
US9908046B2 (en) * 2007-10-26 2018-03-06 International Business Machines Corporation System for personalizing content presented in an avatar wait state
CN106606865B (zh) * 2015-10-27 2020-01-03 网易(杭州)网络有限公司 游戏中数据互通的方法、***及其终端和服务器
CN105435450B (zh) * 2015-11-27 2019-08-20 深圳市望尘科技有限公司 一种预先生成游戏对战片段的游戏实现方法
US10909450B2 (en) * 2016-03-29 2021-02-02 Microsoft Technology Licensing, Llc Multiple-action computational model training and operation
CN107308642A (zh) * 2017-07-04 2017-11-03 北京像素软件科技股份有限公司 角色行为定义方法、装置及电子设备
CN110163378A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 特征处理方法、装置、计算机可读存储介质和计算机设备
CN111282267B (zh) * 2020-02-11 2021-08-20 腾讯科技(深圳)有限公司 信息处理方法、装置、介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013252247A (ja) * 2012-06-06 2013-12-19 Kitami Institute Of Technology ロールプレイングゲームの攻略法算出装置、算出方法、算出プログラム及びこのプログラムを記録した記録媒体
JP2018063602A (ja) * 2016-10-13 2018-04-19 株式会社 ディー・エヌ・エー Q学習を用いたニューラルネットワークの重み付け調整のためのプログラム、システム、及び方法
CN107890675A (zh) * 2017-11-13 2018-04-10 杭州电魂网络科技股份有限公司 Ai行为实现方法和装置
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质
JP2019195512A (ja) * 2018-05-10 2019-11-14 株式会社Snk 格闘ゲームの学習装置および学習プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"AIが達人技を体得する技術「敵対的逆強化学習」の紹介", GMOインターネットグループ グループ研究開発本部(次世代システム研究室) [ONLINE], JPN6023019779, 11 October 2018 (2018-10-11), ISSN: 0005065049 *
小高 知宏, 基礎から学ぶ人工知能の教科書, vol. 第1版, JPN6023019778, 25 September 2019 (2019-09-25), pages 132 - 134, ISSN: 0005065050 *

Also Published As

Publication number Publication date
CN111282267B (zh) 2021-08-20
JP7399277B2 (ja) 2023-12-15
KR20220080191A (ko) 2022-06-14
WO2021159779A1 (zh) 2021-08-19
US20220176248A1 (en) 2022-06-09
CN111282267A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
JP7399277B2 (ja) 情報処理方法、装置、コンピュータプログラム及び電子装置
US20220219087A1 (en) Artificial intelligence (ai) model training to generate an ai model personalized to a user
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111632379B (zh) 游戏角色行为控制方法、装置、存储介质及电子设备
CN103198358B (zh) 信息处理设备、信息处理方法和程序
US11551479B2 (en) Motion behavior pattern classification method, system and device
CN111738294B (zh) Ai模型的训练方法、使用方法、计算机设备及存储介质
CN112402986B (zh) 一种对战游戏中强化学习模型的训练方法及装置
CN111450531B (zh) 虚拟角色控制方法、装置、电子设备以及存储介质
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
Martínez et al. Genetic search feature selection for affective modeling: a case study on reported preferences
CN113069769A (zh) 云游戏界面显示方法、装置、电子设备以及存储介质
CN114404977A (zh) 行为模型的训练方法、结构扩容模型的训练方法
CN116943220A (zh) 一种游戏人工智能控制方法、装置、设备及存储介质
CN112163571B (zh) 电子设备使用者的属性识别方法、装置、设备及存储介质
CN111753855B (zh) 一种数据处理方法、装置、设备及介质
KR102259786B1 (ko) 게임 데이터 처리 방법
Ring et al. Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods
CN113476833A (zh) 游戏动作识别方法、装置、电子设备和存储介质
Rajabi et al. A dynamic balanced level generator for video games based on deep convolutional generative adversarial networks
CN112717408A (zh) 动作确定方法、装置、设备及计算机可读存储介质
CN117883788B (zh) 智能体训练方法、游戏对战方法、装置及电子设备
Pillai et al. Enhancing video game experience with playtime training and tailoring of virtual opponents: Using Deep Q-Network based Reinforcement Learning on a Multi-Agent Environment
Bontrager Learning to Generate Form and Function
Kielmann Neuro-evolution as an Alternative to Reinforcement Learning for Playing Atari Games

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231205

R150 Certificate of patent or registration of utility model

Ref document number: 7399277

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150