JP6235082B1 - データ分類装置、データ分類方法、およびプログラム - Google Patents
データ分類装置、データ分類方法、およびプログラム Download PDFInfo
- Publication number
- JP6235082B1 JP6235082B1 JP2016138344A JP2016138344A JP6235082B1 JP 6235082 B1 JP6235082 B1 JP 6235082B1 JP 2016138344 A JP2016138344 A JP 2016138344A JP 2016138344 A JP2016138344 A JP 2016138344A JP 6235082 B1 JP6235082 B1 JP 6235082B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- classification
- unit
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 140
- 238000006243 chemical reaction Methods 0.000 claims abstract description 61
- 230000014509 gene expression Effects 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims description 151
- 230000006870 function Effects 0.000 claims description 12
- 230000004069 differentiation Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 4
- 238000013523 data management Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、実施形態に係るデータ分類装置100の使用環境を示す図である。実施形態のデータ分類装置100は、ネットワークNWを介してデータサーバ200と通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうち一部または全部を含む。
図2は、実施形態に係るデータ分類装置100の詳細構成を示すブロック図である。データ分類装置100は、データサーバ200からストリームデータ(以下、分類対象データTDと称す)を受信し、受信した分類対象データTDにラベルを付与することで分類対象データTDを分類する。ラベルは、分類対象データTDを分類するためのデータであり、例えば、「政治」、「経済」、「スポーツ」などの分類対象データTDが属するジャンルを示すデータである。以下、データ分類装置100の分類動作について詳細に説明する。
次に、第1学習部171によって実行される、特徴量変換器130の変換処理を学習する学習処理について説明する。第1学習部171は、入力される分類対象データTDを蓄積したデータを第1学習データD1として用いて、特徴量変換器130の変換処理を学習する。本実施形態において、特徴量変換器130の変換処理を学習することは、ベクトル表現テーブルTBに含まれるベクトルV1からVkを、より適切な値に更新することである。本実施形態においては、データ管理部110から出力される全ての分類対象データTDを蓄積して処理することは不適切であるため、第1学習部171は、少数の分類対象データTDを受け取るごとにリアルタイムに学習処理を行う。
次に、第2学習部142によって実行される、分類部141の分類処理を学習する学習処理について説明する。第2学習部142は、分類対象データTDと同種のデータに対してラベルが付与された第2学習データD2を用いて、分類部141の分類処理を学習する。本実施形態において、分類部141の分類処理を学習することは、ワードベクトルVを分類するために用いられる分類基準パラメータ(例えば、図5の境界BD)を、より適切なパラメータに更新することである。
図8は、実施形態に係るラベル付与処理を示すフローチャートである。本フローチャートによる処理は、データ分類装置100によって実行される。
図9は、実施形態に係る特徴量変換器130の変換処理を学習する学習処理(第1学習処理)を示すフローチャートである。本フローチャートによる処理は、第1学習部171によって実行される。
図10は、実施形態に係る分類部141の分類処理を学習する学習処理(第2学習処理)を示すフローチャートである。本フローチャートによる処理は、第2学習部142によって実行される。
図11は、実施形態に係るデータ分類装置100のハードウェア構成の一例を示す図である。データ分類装置100は、例えば、CPU180、RAM181、ROM182、フラッシュメモリやHDDなどの二次記憶装置183、NIC184、ドライブ装置185、キーボード186、およびマウス187が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置185には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置183、またはドライブ装置185に装着された可搬型記憶媒体に記憶されたプログラムがDMA(Direct Memory Access)コントローラ(不図示)などによってRAM181に展開され、CPU180によって実行されることで、データ分類装置100の機能部が実現される。
110…データ管理部
120…受付部
130…特徴量変換器
140…分類器
141…分類部
142…第2学習部
150…第1記憶部
160…第2記憶部
170…学習器
171…第1学習部
200…データサーバ
210…制御部
220…通信部
D1…第1学習データ
D2…第2学習データ
TB…ベクトル表現テーブル
TD…分類対象データ
V…ワードベクトル
Claims (13)
- 入力される分類対象データを特徴量表現に変換する変換部と、
前記変換部によって変換された前記特徴量表現に基づき、前記分類対象データにラベルを付与する分類部と、
前記分類部によってラベルを付与される前記分類対象データを蓄積したデータを第1学習データとして用いて、前記変換部の変換処理を学習する第1学習部と、
前記分類対象データと同種のデータに対してラベルが付与された第2学習データを用いて、前記分類部の分類処理を学習する第2学習部と、
を備えるデータ分類装置。 - 前記変換部は、単語とベクトルが対応付けられたベクトル表現テーブルを参照して、前記分類対象データを前記特徴量表現としてのベクトルデータに変換し、
前記第1学習部は、正例または負例を示す情報を含まない前記第1学習データを用いて、前記ベクトル表現テーブルに含まれるベクトルを更新する
請求項1記載のデータ分類装置。 - 前記第1学習部は、前記分類対象データに含まれる第1の単語に対応づけられた第1のベクトルと、前記第1の単語に関連する第2の単語に対応づけられた第2のベクトルとが近い値となるように、前記ベクトル表現テーブルに含まれる前記第1のベクトルと前記第2のベクトルとを更新する
請求項2記載のデータ分類装置。 - 前記第1の単語に関連する第2の単語とは、前記分類対象データにおいて、前記第1の単語から所定単語以内に存在する単語である
請求項3記載のデータ分類装置。 - 前記第1学習部は、前記第1のベクトルと、前記第2のベクトルと、負例に対応付けられた第3のベクトルとを用いて損失関数を算出し、算出した損失関数を偏微分した値を用いて、前記第1のベクトルと、前記第2のベクトルと、前記第3のベクトルとを更新する
請求項3または4記載のデータ分類装置。 - 前記第2学習部は、正例または負例を示す情報を含む前記第2学習データに基づいて、前記変換部によって変換された前記特徴量表現を分類するために用いられる分類基準パラメータを更新する
請求項1記載のデータ分類装置。 - 前記第2学習部は、前記第2学習データを前記変換部に出力し、
前記変換部は、前記第2学習部から出力された前記第2学習データを前記特徴量表現に変換し、変換した前記特徴量表現を前記第2学習部に出力し、
前記第2学習部は、前記変換部から出力された前記特徴量表現と、前記第2学習データに付与された前記ラベルとに基づき、前記分類基準パラメータを更新する
請求項6記載のデータ分類装置。 - 前記変換部および前記分類部による処理は、前記第1学習部および前記第2学習部による処理とは非同期で実行される
請求項1記載のデータ分類装置。 - 前記第1学習データは、第1記憶部に記憶され、
前記第1学習部は、前記第1記憶部に記憶された前記第1学習データが所定量を超えた場合に、前記変換部の変換処理を学習する学習処理を開始する
請求項1記載のデータ分類装置。 - 前記第1学習部は、前記変換部の変換処理を学習する学習処理が完了した場合、前記第1学習データを前記第1記憶部から消去または無効化する
請求項9記載のデータ分類装置。 - 入力される分類対象データを特徴量表現に変換する変換部と、
前記変換部によって変換された前記特徴量表現に基づき、前記分類対象データにラベルを付与する分類部と、
前記分類部によってラベルを付与される前記分類対象データを蓄積したデータを学習データとして用いて、前記変換部の変換処理を学習する学習部と、
を備えるデータ分類装置。 - 入力される分類対象データを特徴量表現に変換する変換工程と、
変換された前記特徴量表現に基づき、前記分類対象データにラベルを付与する分類工程と、
前記分類工程でラベルを付与される前記分類対象データを蓄積したデータを第1学習データとして用いて、前記変換工程の変換処理を学習する第1学習工程と、
前記分類対象データと同種のデータに対してラベルが付与された第2学習データを用いて、前記分類工程の分類処理を学習する第2学習工程と、
を備えるデータ分類方法。 - コンピュータを、
入力される分類対象データを特徴量表現に変換する変換部、
前記変換部によって変換された前記特徴量表現に基づき、前記分類対象データにラベルを付与する分類部、
前記分類部によってラベルを付与される前記分類対象データを蓄積したデータを第1学習データとして用いて、前記変換部の変換処理を学習する第1学習部、
前記分類対象データと同種のデータに対してラベルが付与された第2学習データを用いて、前記分類部の分類処理を学習する第2学習部、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138344A JP6235082B1 (ja) | 2016-07-13 | 2016-07-13 | データ分類装置、データ分類方法、およびプログラム |
US15/647,527 US20180018391A1 (en) | 2016-07-13 | 2017-07-12 | Data classification device, data classification method, and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138344A JP6235082B1 (ja) | 2016-07-13 | 2016-07-13 | データ分類装置、データ分類方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6235082B1 true JP6235082B1 (ja) | 2017-11-22 |
JP2018010451A JP2018010451A (ja) | 2018-01-18 |
Family
ID=60417467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016138344A Active JP6235082B1 (ja) | 2016-07-13 | 2016-07-13 | データ分類装置、データ分類方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180018391A1 (ja) |
JP (1) | JP6235082B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797876A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据分类方法、装置、存储介质及电子设备 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268619B (zh) | 2018-01-08 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 内容推荐方法及装置 |
JP6835756B2 (ja) * | 2018-01-30 | 2021-02-24 | 日本電信電話株式会社 | 作業特定装置、作業特定方法及びプログラム |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
JP2019211974A (ja) * | 2018-06-04 | 2019-12-12 | 株式会社野村総合研究所 | 企業分析装置 |
CN110570316A (zh) | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 训练损伤识别模型的方法及装置 |
CN110569696A (zh) | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 用于车辆部件识别的神经网络***、方法和装置 |
US11301748B2 (en) | 2018-11-13 | 2022-04-12 | International Business Machines Corporation | Automatic feature extraction from aerial images for test pattern sampling and pattern coverage inspection for lithography |
JP2020113035A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム |
WO2020190295A1 (en) * | 2019-03-21 | 2020-09-24 | Hewlett-Packard Development Company, L.P. | Saliency-based hierarchical sensor data storage |
CN111797175B (zh) * | 2019-04-09 | 2023-12-19 | Oppo广东移动通信有限公司 | 数据存储方法、装置、存储介质及电子设备 |
CN111405013A (zh) * | 2020-03-06 | 2020-07-10 | 厦门区块链云科技有限公司 | 一种云平台数据管理*** |
CN113158389B (zh) * | 2021-04-16 | 2022-11-18 | 华北电力大学 | 一种基于机器学习算法的中压配网馈线分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05242064A (ja) * | 1992-02-27 | 1993-09-21 | Toshiba Corp | 神経回路網の高速学習装置 |
JP2016016295A (ja) * | 2014-07-11 | 2016-02-01 | 株式会社デンソー | 血圧推定装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US7529748B2 (en) * | 2005-11-15 | 2009-05-05 | Ji-Rong Wen | Information classification paradigm |
JP5765416B2 (ja) * | 2011-03-08 | 2015-08-19 | 日本電気株式会社 | 分散ストレージシステムおよび方法 |
US9672355B2 (en) * | 2011-09-16 | 2017-06-06 | Veracode, Inc. | Automated behavioral and static analysis using an instrumented sandbox and machine learning classification for mobile security |
JP6004015B2 (ja) * | 2013-02-01 | 2016-10-05 | 富士通株式会社 | 学習方法、情報処理装置および学習プログラム |
WO2015016133A1 (ja) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
US9922054B2 (en) * | 2014-11-19 | 2018-03-20 | Informex, Inc. | Data retrieval apparatus, program and recording medium |
-
2016
- 2016-07-13 JP JP2016138344A patent/JP6235082B1/ja active Active
-
2017
- 2017-07-12 US US15/647,527 patent/US20180018391A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05242064A (ja) * | 1992-02-27 | 1993-09-21 | Toshiba Corp | 神経回路網の高速学習装置 |
JP2016016295A (ja) * | 2014-07-11 | 2016-02-01 | 株式会社デンソー | 血圧推定装置 |
Non-Patent Citations (1)
Title |
---|
"word2vecによる文章表現/ディープラーニング所感|備忘録blog", [ONLINE], vol. [検索日:2017.4.10], JPN6017013660, 21 June 2016 (2016-06-21), JP * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797876A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 数据分类方法、装置、存储介质及电子设备 |
CN111797876B (zh) * | 2019-04-09 | 2024-06-04 | Oppo广东移动通信有限公司 | 数据分类方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2018010451A (ja) | 2018-01-18 |
US20180018391A1 (en) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6235082B1 (ja) | データ分類装置、データ分類方法、およびプログラム | |
JP6199461B1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
EP3711000B1 (en) | Regularized neural network architecture search | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
CN105320957B (zh) | 分类器训练方法和装置 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
US20170200065A1 (en) | Image Captioning with Weak Supervision | |
CN109145828B (zh) | 用于生成视频类别检测模型的方法和装置 | |
GB2546360A (en) | Image captioning with weak supervision | |
CN108304890B (zh) | 一种分类模型的生成方法及装置 | |
JP2015166962A (ja) | 情報処理装置、学習方法、及び、プログラム | |
JP6509717B2 (ja) | 事例選択装置、分類装置、方法、及びプログラム | |
US11030532B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable storage medium | |
CN111813910A (zh) | 客服问题的更新方法、***、终端设备及计算机存储介质 | |
JP6807822B2 (ja) | 人流量予測装置、方法、及びプログラム | |
CN113919361A (zh) | 一种文本分类方法和装置 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
CN117010480A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN114241411A (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
JP2019016122A (ja) | モデル学習装置、情報判定装置およびそれらのプログラム | |
CN111090995B (zh) | 短文本主题识别方法和*** | |
US9323787B2 (en) | Computer-readable recording medium storing system management program, device, and method | |
CN113590752A (zh) | 基于大数据的话题用户画像处理方法及人工智能服务器 | |
Gong | Analysis of internet public opinion popularity trend based on a deep neural network | |
CN111159397A (zh) | 文本分类方法和装置、服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171025 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6235082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |