JP6103540B2 - 生成装置、生成方法、情報処理方法、及び、プログラム - Google Patents
生成装置、生成方法、情報処理方法、及び、プログラム Download PDFInfo
- Publication number
- JP6103540B2 JP6103540B2 JP2014052154A JP2014052154A JP6103540B2 JP 6103540 B2 JP6103540 B2 JP 6103540B2 JP 2014052154 A JP2014052154 A JP 2014052154A JP 2014052154 A JP2014052154 A JP 2014052154A JP 6103540 B2 JP6103540 B2 JP 6103540B2
- Authority
- JP
- Japan
- Prior art keywords
- gain
- state
- selection
- input
- probability distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 230000010365 information processing Effects 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title claims 8
- 239000013598 vector Substances 0.000 claims description 293
- 230000007704 transition Effects 0.000 claims description 129
- 238000009826 distribution Methods 0.000 claims description 100
- 230000006870 function Effects 0.000 claims description 48
- 230000001186 cumulative effect Effects 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000010187 selection method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 55
- 238000012545 processing Methods 0.000 description 29
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 18
- 230000006854 communication Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 238000012546 transfer Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0254—Targeted advertisements based on statistics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
[特許文献1]特開2011−53735号公報
[特許文献2]特開2012−123529号公報
[特許文献3]特開2012−190062号公報
Pa s,i;s',zは隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移し、観測zが観測される状態遷移確率を示す。
Pa s,i;s'は隠れ状態i及び可視状態sにおいて入力aにより可視状態sから可視状態s'に遷移する状態遷移確率を示す。
Claims (16)
- 観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する、コンピュータにより実行される生成方法であって、
隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定段階と、
選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択段階と、
を備える生成方法。 - 前記利得ベクトルの集合を、将来の時点から前記基準時点へと遡って再帰的に生成する生成段階を更に備える、
請求項1に記載の生成方法。 - 前記設定段階は、選択用の前記確率分布に、長さが隠れ状態の数となり、各隠れ状態について当該隠れ状態に対応する成分を1としたベクトルを、選択用の前記確率分布として設定する段階を含む、
請求項2に記載の生成方法。 - 前記設定段階は、前記生成段階において生成した前記利得ベクトルの集合の中から前記累積期待利得の最大値を返す前記利得ベクトルに対応する入力が選択された場合に、選択された前記入力に応じて更新される隠れ状態の確率分布を選択用の前記確率分布として設定する段階を含む、
請求項2又は3に記載の生成方法。 - 前記将来の時点N(但し、Nは2以上の整数)における利得ベクトルの集合を初期化する初期化段階を更に備える請求項2から4のいずれか1項に記載の生成方法。
- 前記生成段階は、
時点nにおける可視状態s(s∈S、Sは可視状態の集合)についての利得ベクトルαs,nの集合Λn(s)を、次の時点n+1における各可視状態s'(s'∈S)についての利得ベクトルαs',n+1の集合Λn+1(s')に基づいて再帰的に生成する段階を含む、
請求項2から5のいずれか1項に記載の生成方法。 - 前記生成段階は、一の可視状態sから別の可視状態s'に遷移する状態遷移確率、及び、可視状態s'における期待利得に更に基づいて、利得ベクトルαs,nの集合Λn(s)を生成する段階を含む、
請求項6に記載の生成方法。 - 請求項1から6のいずれか1項に記載の生成方法と、
観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルにおいて最適な入力を選択する選択方法であって、
前記生成方法において生成した利得ベクトルの集合を取得する取得段階、
現在の可視状態に応じた前記利得ベクトルの中から、現時点における隠れ状態の確率分布に対し累積期待利得を最大化する前記利得ベクトルを選択する利得選択段階、及び、
選択した前記利得ベクトルに対応する入力を、最適な入力として選択する入力選択段階を有する選択方法と、
をコンピュータにより実行する情報処理方法。 - 前記取得段階は、隠れ状態iにおいて一の入力aをしたときに状態集合Sにおいて一の可視状態sから別の可視状態s'に遷移する状態遷移確率Pa s,i,s'を取得し、
前記選択段階は、前記入力選択段階で選択された入力aを実行したことに応じて、前記選択された入力aに対応する前記状態遷移確率Pa s,i,s'及び現在の隠れ状態の確率分布に基づき、可視状態sを遷移させる遷移段階を更に備える、
請求項8に記載の情報処理方法。 - 前記遷移段階は、前記状態遷移確率Pa s,i,s'及び現在の隠れ状態の確率分布に基づき、隠れ状態の確率分布bを更新する段階を含む、
請求項9に記載の情報処理方法。 - 前記設定段階は、前記遷移段階で更新した確率分布を選択用の確率分布として設定する段階を含む、
請求項9から12のいずれか1項に記載の情報処理方法。 - 前記選択方法において、予め定められた期間について入力を選択して、前記確率分布の更新を実行することと、
前記生成方法において、前記選択方法により前記更新された確率分布を受け取り、当該確率分布bを前記選択用の確率分布として前記利得ベクトルの集合を更新することとを繰り返す、
請求項13に記載の情報処理方法。 - 観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置であって、
隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定部と、
選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択部と、
を備える生成装置。 - コンピュータを、観測可能な可視状態、及び、観測不能な隠れ状態を備える遷移モデルであって、入力に応じて現在の可視状態から次の可視状態へと遷移する遷移モデルについて、基準時点以降の累積期待利得の算出に用いる利得ベクトルの集合を可視状態毎に生成する生成装置として機能させるプログラムであって、実行されると当該コンピュータを、
隠れ状態毎に累積利得の成分を含む利得ベクトルのうち利得ベクトルの集合に含めるベクトルを選択するために用いる選択用の前記隠れ状態の確率分布を設定する設定部と、
選択用の前記確率分布について前記累積期待利得の最大値を与える利得ベクトルを優先して前記利得ベクトルの集合に含める選択部として機能させる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014052154A JP6103540B2 (ja) | 2014-03-14 | 2014-03-14 | 生成装置、生成方法、情報処理方法、及び、プログラム |
US14/633,414 US9747616B2 (en) | 2014-03-14 | 2015-02-27 | Generating apparatus, generation method, information processing method and program |
US14/748,264 US9858592B2 (en) | 2014-03-14 | 2015-06-24 | Generating apparatus, generation method, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014052154A JP6103540B2 (ja) | 2014-03-14 | 2014-03-14 | 生成装置、生成方法、情報処理方法、及び、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015176329A JP2015176329A (ja) | 2015-10-05 |
JP6103540B2 true JP6103540B2 (ja) | 2017-03-29 |
Family
ID=54069324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014052154A Active JP6103540B2 (ja) | 2014-03-14 | 2014-03-14 | 生成装置、生成方法、情報処理方法、及び、プログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US9747616B2 (ja) |
JP (1) | JP6103540B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6532048B2 (ja) * | 2014-10-02 | 2019-06-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、選択装置、生成方法、選択方法、およびプログラム |
US10360509B2 (en) * | 2015-10-19 | 2019-07-23 | International Business Machines Corporation | Apparatus and method for generating an optimal set of choices |
US11176473B2 (en) * | 2017-01-06 | 2021-11-16 | International Business Machines Corporation | Partially observed Markov decision process model and its use |
US11947978B2 (en) | 2017-02-23 | 2024-04-02 | Ab Initio Technology Llc | Dynamic execution of parameterized applications for the processing of keyed network data streams |
US10831509B2 (en) | 2017-02-23 | 2020-11-10 | Ab Initio Technology Llc | Dynamic execution of parameterized applications for the processing of keyed network data streams |
US11568236B2 (en) | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5946673A (en) * | 1996-07-12 | 1999-08-31 | Francone; Frank D. | Computer implemented machine learning and control system |
US6466908B1 (en) * | 2000-01-14 | 2002-10-15 | The United States Of America As Represented By The Secretary Of The Navy | System and method for training a class-specific hidden Markov model using a modified Baum-Welch algorithm |
EP1223757B1 (en) * | 2001-01-09 | 2006-03-22 | Metabyte Networks, Inc. | System, method, and software application for targeted advertising via behavioral model clustering, and preference programming based on behavioral model clusters |
US7403904B2 (en) * | 2002-07-19 | 2008-07-22 | International Business Machines Corporation | System and method for sequential decision making for customer relationship management |
US7174354B2 (en) * | 2002-07-31 | 2007-02-06 | Bea Systems, Inc. | System and method for garbage collection in a computer system, which uses reinforcement learning to adjust the allocation of memory space, calculate a reward, and use the reward to determine further actions to be taken on the memory space |
US20050071223A1 (en) * | 2003-09-30 | 2005-03-31 | Vivek Jain | Method, system and computer program product for dynamic marketing strategy development |
US20060100874A1 (en) * | 2004-10-22 | 2006-05-11 | Oblinger Daniel A | Method for inducing a Hidden Markov Model with a similarity metric |
JP4465417B2 (ja) * | 2006-12-14 | 2010-05-19 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 顧客セグメント推定装置 |
WO2009114649A2 (en) * | 2008-03-12 | 2009-09-17 | Aptima, Inc. | Probabilistic decision making system and methods of use |
US8326780B2 (en) * | 2008-10-14 | 2012-12-04 | Honda Motor Co., Ltd. | Smoothed sarsa: reinforcement learning for robot delivery tasks |
US8478642B2 (en) * | 2008-10-20 | 2013-07-02 | Carnegie Mellon University | System, method and device for predicting navigational decision-making behavior |
JP5619379B2 (ja) | 2009-06-24 | 2014-11-05 | 株式会社西原環境 | 固液分離装置 |
JP5361615B2 (ja) | 2009-08-31 | 2013-12-04 | 日本電信電話株式会社 | 行動制御学習方法、行動制御学習装置、行動制御学習プログラム |
US8024611B1 (en) * | 2010-02-26 | 2011-09-20 | Microsoft Corporation | Automated learning of failure recovery policies |
US20110313933A1 (en) * | 2010-03-16 | 2011-12-22 | The University Of Washington Through Its Center For Commercialization | Decision-Theoretic Control of Crowd-Sourced Workflows |
WO2012030838A1 (en) * | 2010-08-30 | 2012-03-08 | Honda Motor Co., Ltd. | Belief tracking and action selection in spoken dialog systems |
JP5427163B2 (ja) | 2010-12-07 | 2014-02-26 | 日本電信電話株式会社 | 行動制御装置、行動制御方法及び行動制御プログラム |
JP5475707B2 (ja) | 2011-03-08 | 2014-04-16 | 日本電信電話株式会社 | 行動制御装置、行動制御方法及び行動制御プログラム |
CA2838003A1 (en) * | 2011-06-02 | 2012-12-06 | Supported Intelligence, LLC | System and method for evaluating decision opportunities |
JP5868104B2 (ja) * | 2011-09-30 | 2016-02-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 周期性を有するマルコフ決定過程を用いて最適施策を決定する方法、装置及びコンピュータプログラム |
US9047423B2 (en) * | 2012-01-12 | 2015-06-02 | International Business Machines Corporation | Monte-Carlo planning using contextual information |
JP2013205170A (ja) * | 2012-03-28 | 2013-10-07 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2013242761A (ja) * | 2012-05-22 | 2013-12-05 | Internatl Business Mach Corp <Ibm> | マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
-
2014
- 2014-03-14 JP JP2014052154A patent/JP6103540B2/ja active Active
-
2015
- 2015-02-27 US US14/633,414 patent/US9747616B2/en not_active Expired - Fee Related
- 2015-06-24 US US14/748,264 patent/US9858592B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9858592B2 (en) | 2018-01-02 |
US9747616B2 (en) | 2017-08-29 |
US20150262231A1 (en) | 2015-09-17 |
US20150294354A1 (en) | 2015-10-15 |
JP2015176329A (ja) | 2015-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6103540B2 (ja) | 生成装置、生成方法、情報処理方法、及び、プログラム | |
Djatmiko et al. | Brand image and product price; Its impact for Samsung smartphone purchasing decision | |
Ma et al. | On the adequacy of untuned warmup for adaptive optimization | |
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
JP5984150B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6443858B2 (ja) | 算出装置、算出方法、学習装置、学習方法、及びプログラム | |
US20240095490A1 (en) | Aspect Pre-selection using Machine Learning | |
JP4847916B2 (ja) | 購買順序を考慮したリコメンド装置、リコメンド方法、リコメンドプログラムおよびそのプログラムを記録した記録媒体 | |
JP6187977B2 (ja) | 解析装置、解析方法及びプログラム | |
WO2014103560A1 (ja) | 分析装置、分析プログラム、分析方法、推定装置、推定プログラム、及び、推定方法。 | |
JP6365032B2 (ja) | データ分類方法、データ分類プログラム、及び、データ分類装置 | |
CN111967924A (zh) | 商品推荐方法、商品推荐装置、计算机设备和介质 | |
JP6132288B2 (ja) | 生成装置、選択装置、生成方法、選択方法、及び、プログラム | |
JP6366031B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Ursu et al. | The sequential search model: A framework for empirical research | |
JP7047911B2 (ja) | 情報処理システム、情報処理方法及び記憶媒体 | |
JP5945206B2 (ja) | 商品推薦装置及び方法及びプログラム | |
JP2013235512A (ja) | 数理計画問題を解くための装置、プログラムおよび方法 | |
EP4120144A1 (en) | Reducing sample selection bias in a machine learning-based recommender system | |
JP2015106164A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
CN111242654B (zh) | 生成广告图片的方法和*** | |
CN113947431A (zh) | 一种用户行为质量评估方法、装置、设备和存储介质 | |
JP6532048B2 (ja) | 生成装置、選択装置、生成方法、選択方法、およびプログラム | |
WO2023175977A1 (ja) | 学習装置 | |
Sirivara | Marketing Reevaluated: Proposing Computer-assisted Generation of Online Seller Marketing Content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170131 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20170201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6103540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |