JP6890764B2 - 教師データ生成システム、教師データ生成方法、及びプログラム - Google Patents
教師データ生成システム、教師データ生成方法、及びプログラム Download PDFInfo
- Publication number
- JP6890764B2 JP6890764B2 JP2019176820A JP2019176820A JP6890764B2 JP 6890764 B2 JP6890764 B2 JP 6890764B2 JP 2019176820 A JP2019176820 A JP 2019176820A JP 2019176820 A JP2019176820 A JP 2019176820A JP 6890764 B2 JP6890764 B2 JP 6890764B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- cluster
- teacher data
- analyst
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000006243 chemical reaction Methods 0.000 claims description 125
- 230000007704 transition Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 description 247
- 230000006399 behavior Effects 0.000 description 65
- 230000008569 process Effects 0.000 description 32
- 238000013500 data storage Methods 0.000 description 25
- 238000002372 labelling Methods 0.000 description 19
- 239000008186 active pharmaceutical agent Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明に関わる教師データ生成システムの実施形態の例を説明する。図1は、教師データ生成システムの全体構成を示す図である。図1に示すように、教師データ生成システムSは、サーバ10、ユーザ端末20、及び解析者端末30を含み、これらはインターネット等のネットワークNに接続される。なお、図1では、サーバ10、ユーザ端末20、及び解析者端末30を1台ずつ示しているが、これらは複数台あってもよい。
まず、教師データ生成システムSの概要を説明する。教師データ生成システムSは、複数の分類対象の各々にラベルを付与し、学習モデルに学習させる教師データを生成する。
(手順1)似た内容の行動履歴が同じクラスタに属するように、行動履歴をクラスタリングする。
(手順2)解析者に、クラスタに属する一部の行動履歴の内容を提示してストラグルラベルを指定させる。
(手順3)クラスタに、解析者が指定したストラグルラベルを付与する。
(手順4)クラスタのストラグルラベルに基づいて教師データを生成する。
図8は、教師データ生成システムSで実現される機能の一例を示す機能ブロック図である。図8に示すように、本実施形態では、データ記憶部100、コンバージョンラベル付与部101、クラスタリング部102、提示部103、ストラグルラベル付与部104、生成部105、学習部106、及び処理実行部107が、サーバ10で実現される場合を説明する。
データ記憶部100は、記憶部12を主として実現される。データ記憶部100は、本実施形態で説明する処理を実行するために必要なデータを記憶する。例えば、データ記憶部100は、行動履歴データD1、ドメインナレッジデータD2、及び教師データセットDSを記憶する。
コンバージョンラベル付与部101は、制御部11を主として実現される。コンバージョンラベル付与部101は、各行動履歴に、ストラグルラベルとは異なるコンバージョンラベルを付与する。
クラスタリング部102は、制御部11を主として実現される。クラスタリング部102は、複数の行動履歴の各々をクラスタリングする。クラスタリング自体は、公知のクラスタリング手法を利用可能であり、本実施形態では、最短距離法を例に挙げて説明する。クラスタリング手法は、最短距離法に限られず、ウォード法、最長距離法、群平均法、又は重心法といった他の階層的クラスタリング手法が利用されてもよいし、K−Means法、DBSCAN、又はMean−shiftといった非階層的クラスタリング手法が利用されてもよい。
提示部103は、制御部11を主として実現される。提示部103は、解析者に、クラスタに属する一部の行動履歴の内容を提示する。
ストラグルラベル付与部104は、制御部11を主として実現される。ストラグルラベル付与部104は、クラスタに、解析者により指定されたストラグルラベルを付与する。
生成部105は、制御部11を主として実現される。生成部105は、ストラグルラベル付与部104により付与されたストラグルラベルに基づいて、学習モデルに学習させる教師データを生成する。生成部105は、ストラグルラベルが付与されたクラスタに属する行動履歴ごとに、当該行動履歴の特徴量と、当該ストラグルラベルと、のペアを教師データとして生成する。生成部105は、ストラグルラベルが付与された全てのクラスタについて教師データを生成し、教師データセットDSとしてデータ記憶部100に記録する。
学習部106は、制御部11を主として実現される。学習部106は、教師データセットDSに基づいて、学習モデルの学習処理を実行する。学習処理自体は、機械学習で利用されている公知の手法を利用可能であり、例えば、ニューラルネットワークで利用されている学習処理を利用可能である。学習処理のプログラムは、データ記憶部100に記憶されているものとする。学習部106は、教師データセットDSに格納された教師データの入力と出力の関係が得られるように、学習モデルのパラメータを調整する。教師データセットDSが学習済みの学習モデルは、データ記憶部100に記憶され、ユーザの行動解析に利用される。
処理実行部107は、制御部11を主として実現される。処理実行部107は、学習部106により学習済みの学習モデルに基づいて、所定の処理を実行する。所定の処理は、学習モデルの用途に応じた任意の処理であればよく、本実施形態では、ユーザの行動解析である。処理実行部107は、ユーザによるアクセスを受け付けた場合に、当該ユーザの行動履歴を取得してその特徴量を学習モデルに入力する。なお、特徴量は、学習モデルによって計算されてもよい。学習モデルは、特徴量に対応するストラグルラベルを出力し、処理実行部107は、ユーザの行動履歴に当該出力されたストラグルラベルを付与する。例えば、処理実行部107は、ストラグル行動である「S」に分類された行動履歴を解析者端末30に表示させ、解析者は、レイアウトに問題のあるページを特定する。
図12及び図13は、教師データ生成システムSで実行される処理の一例を示すフロー図である。図12及び図13に示す処理は、制御部11,31がそれぞれ記憶部12,32に記憶されたプログラムに基づいて動作することによって実行される。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
Claims (10)
- 複数の分類対象の各々の内容に基づいて、各分類対象に、第1のラベルとは異なる第2のラベルを関連付ける第2ラベル関連付け手段と、
各分類対象の特徴量を計算し、前記複数の分類対象をクラスタリングするクラスタリング手段と、
複数のクラスタのうち、解析者により指定された前記第2のラベルが関連付けられた前記分類対象の数又は割合に基づいてクラスタを選択し、当該選択したクラスタに属する一部の前記分類対象の内容を示す画像を表示手段に表示させる表示制御手段と、
前記選択されたクラスタに、前記解析者により指定された前記第1のラベルを関連付ける第1ラベル関連付け手段と、
前記選択されたクラスタに属する前記分類対象と、前記指定された第1のラベルと、のペアを、学習モデルに学習させる教師データとして生成する生成手段と、
を含むことを特徴とする教師データ生成システム。 - 前記分類対象は、ユーザの画面遷移であり、
前記第1のラベルは、所定の画面に到達することなく、画面遷移及び入力の少なくとも一方が繰り返されたか否かを示すストラグルラベルであり、
前記第2のラベルは、前記所定の画面に到達したか否かを示すコンバージョンラベルである、
ことを特徴とする請求項1に記載の教師データ生成システム。 - 前記表示制御手段は、前記複数のクラスタのうち、前記解析者により指定されたクラスタに属する一部の前記分類対象の内容を示す画像を前記表示手段に表示させ、
前記第1ラベル関連付け手段は、前記解析者により指定されたクラスタに、前記第1のラベルを関連付ける、
ことを特徴とする請求項1又は2に記載の教師データ生成システム。 - 前記表示制御手段は、前記複数の分類対象のうち、前記解析者により指定された分類対象の内容を示す画像を前記表示手段に表示させ、
前記第1ラベル関連付け手段は、前記解析者により指定された分類対象が属するクラスタに、前記第1のラベルを付与する、
ことを特徴とする請求項1〜3の何れかに記載の教師データ生成システム。 - 前記第1ラベル関連付け手段は、前記解析者により、一のクラスタと他のクラスタとの各々に同じ前記第1のラベルが指定された場合には、前記一のクラスタと前記他のクラスタとの各々に前記同じ第1のラベルを関連付ける、
ことを特徴とする請求項1〜4の何れかに記載の教師データ生成システム。 - 前記表示制御手段は、前記一部の分類対象に付与された前記第2のラベルを示す画像を更に表示させる、
ことを特徴とする請求項1〜5の何れかに記載の教師データ生成システム。 - 前記教師データ生成システムは、前記解析者の操作に基づいて、前記一部の分類対象に関連付けられた前記第2のラベルを変更する変更手段、
を更に含むことを特徴とする請求項6に記載の教師データ生成システム。 - 前記教師データ生成システムは、各分類対象と、当該分類対象に関連付けられた前記第2のラベルと、のペアを、第2の学習モデルに学習させる第2の教師データとして生成する第2生成手段を更に含む、
ことを特徴とする請求項1〜7の何れかに記載の教師データ生成システム。 - コンピュータが、
複数の分類対象の各々の内容に基づいて、各分類対象に、第1のラベルとは異なる第2のラベルを関連付ける第2ラベル関連付けステップと、
各分類対象の特徴量を計算し、前記複数の分類対象をクラスタリングするクラスタリングステップと、
複数のクラスタのうち、解析者により指定された前記第2のラベルが関連付けられた前記分類対象の数又は割合に基づいてクラスタを選択し、当該選択したクラスタに属する一部の前記分類対象の内容を示す画像を表示手段に表示させる表示制御ステップと、
前記選択されたクラスタに、前記解析者により指定された前記第1のラベルを関連付ける第1ラベル関連付けステップと、
前記選択されたクラスタに属する前記分類対象と、前記指定された第1のラベルと、のペアを、学習モデルに学習させる教師データとして生成する生成ステップと、
を実行することを特徴とする教師データ生成方法。 - 複数の分類対象の各々の内容に基づいて、各分類対象に、第1のラベルとは異なる第2のラベルを関連付ける第2ラベル関連付け手段、
各分類対象の特徴量を計算し、前記複数の分類対象をクラスタリングするクラスタリング手段、
複数のクラスタのうち、解析者により指定された前記第2のラベルが関連付けられた前記分類対象の数又は割合に基づいてクラスタを選択し、当該選択したクラスタに属する一部の前記分類対象の内容を示す画像を表示手段に表示させる表示制御手段、
前記選択されたクラスタに、前記解析者により指定された前記第1のラベルを関連付ける第1ラベル関連付け手段、
前記選択されたクラスタに属する前記分類対象と、前記指定された第1のラベルと、のペアを、学習モデルに学習させる教師データとして生成する生成手段、
としてコンピュータを機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019176820A JP6890764B2 (ja) | 2019-09-27 | 2019-09-27 | 教師データ生成システム、教師データ生成方法、及びプログラム |
US17/032,766 US20210097352A1 (en) | 2019-09-27 | 2020-09-25 | Training data generating system, training data generating method, and information storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019176820A JP6890764B2 (ja) | 2019-09-27 | 2019-09-27 | 教師データ生成システム、教師データ生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056591A JP2021056591A (ja) | 2021-04-08 |
JP6890764B2 true JP6890764B2 (ja) | 2021-06-18 |
Family
ID=75163236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019176820A Active JP6890764B2 (ja) | 2019-09-27 | 2019-09-27 | 教師データ生成システム、教師データ生成方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210097352A1 (ja) |
JP (1) | JP6890764B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722252A (zh) * | 2022-03-18 | 2022-07-08 | 深圳市小满科技有限公司 | 一种基于用户画像的外贸用户分类方法及相关设备 |
WO2024079827A1 (ja) * | 2022-10-12 | 2024-04-18 | 日本電信電話株式会社 | 動線集約装置、方法、及びプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216739A1 (en) * | 2008-02-22 | 2009-08-27 | Yahoo! Inc. | Boosting extraction accuracy by handling training data bias |
US8209331B1 (en) * | 2008-04-02 | 2012-06-26 | Google Inc. | Context sensitive ranking |
US8612463B2 (en) * | 2010-06-03 | 2013-12-17 | Palo Alto Research Center Incorporated | Identifying activities using a hybrid user-activity model |
JP5785869B2 (ja) * | 2011-12-22 | 2015-09-30 | 株式会社日立製作所 | 行動属性分析プログラムおよび装置 |
GB201517462D0 (en) * | 2015-10-02 | 2015-11-18 | Tractable Ltd | Semi-automatic labelling of datasets |
US11100568B2 (en) * | 2017-12-22 | 2021-08-24 | Paypal, Inc. | System and method for creating and analyzing a low-dimensional representation of webpage sequences |
US11042602B2 (en) * | 2018-02-02 | 2021-06-22 | USI Technologies, Inc. | Abandonment prevention systems and methods |
JP6567720B1 (ja) * | 2018-03-27 | 2019-08-28 | 西日本電信電話株式会社 | データ前処理装置、データ前処理方法及びデータ前処理プログラム |
US11321629B1 (en) * | 2018-09-26 | 2022-05-03 | Intuit Inc. | System and method for labeling machine learning inputs |
-
2019
- 2019-09-27 JP JP2019176820A patent/JP6890764B2/ja active Active
-
2020
- 2020-09-25 US US17/032,766 patent/US20210097352A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2021056591A (ja) | 2021-04-08 |
US20210097352A1 (en) | 2021-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671620B2 (en) | Method for recommending a teacher in a network teaching system | |
Grigera et al. | Automatic detection of usability smells in web applications | |
CN102314450B (zh) | 用于增强网页浏览的方法和设备 | |
US20150169710A1 (en) | Method and apparatus for providing search results | |
Weber et al. | Coding the News: The role of computer code in filtering and distributing news | |
US20110167053A1 (en) | Visual and multi-dimensional search | |
US8826125B2 (en) | System and method for providing news articles | |
US20090300547A1 (en) | Recommender system for on-line articles and documents | |
Ravindran et al. | Mastering social media mining with R | |
US11544135B2 (en) | Systems and methods for the analysis of user experience testing with AI acceleration | |
US20180293242A1 (en) | Method and system for ranking a plurality of documents on a search engine results page | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
CN106688215A (zh) | 针对内容效能优化的自动点击类型选择 | |
US20190294259A1 (en) | Sticker recommendation method and apparatus | |
CN111159572B (zh) | 推荐内容的审核方法、装置、电子设备及存储介质 | |
US20210374681A1 (en) | System and method for providing job recommendations based on users' latent skills | |
JP6890764B2 (ja) | 教師データ生成システム、教師データ生成方法、及びプログラム | |
US9331973B1 (en) | Aggregating content associated with topics in a social network | |
CN112307336B (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
US20230187813A1 (en) | Systems and methods for the analysis of user experience testing with ai acceleration | |
US20190005030A1 (en) | System and method for providing an intelligent language learning platform | |
JP6457058B1 (ja) | 知的財産システム、知的財産支援方法および知的財産支援プログラム | |
KR20220082114A (ko) | 향상된 온라인 리서치를 위한 시스템 및 방법 | |
JP6560843B1 (ja) | 検索システム、検索方法、及びプログラム | |
JP2019114308A (ja) | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190927 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20191007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210406 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6890764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |