JP6306951B2 - ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム - Google Patents
ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム Download PDFInfo
- Publication number
- JP6306951B2 JP6306951B2 JP2014127175A JP2014127175A JP6306951B2 JP 6306951 B2 JP6306951 B2 JP 6306951B2 JP 2014127175 A JP2014127175 A JP 2014127175A JP 2014127175 A JP2014127175 A JP 2014127175A JP 6306951 B2 JP6306951 B2 JP 6306951B2
- Authority
- JP
- Japan
- Prior art keywords
- sns
- data
- sns client
- compression rate
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000006835 compression Effects 0.000 claims description 60
- 238000007906 compression Methods 0.000 claims description 60
- 239000000284 extract Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 description 56
- 238000013500 data storage Methods 0.000 description 41
- 238000004458 analytical method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記投稿データを取得するステップと、
前記取得した投稿データから、SNSクライアント識別子、アカウント識別子、および本文内容を少なくとも抽出し、前記SNSクライアントごとの特徴量を算出するステップであって、前記特徴量は、平均圧縮率および総圧縮率を少なくとも含み、前記平均圧縮率は、前記SNSクライアント識別子および前記アカウント識別子ごとに、前記本文内容を結合し、かつ圧縮した場合の、前記SNSクライアント識別子ごとの平均圧縮率であり、前記総圧縮率は、前記SNSクライアント識別子ごとに前記本文内容を結合し、かつ圧縮した場合の圧縮率である、ステップと、
前記特徴量を学習モデルのインプットデータとして、前記取得した投稿データを出力したSNSクライアントを分類するステップであって、前記学習モデルは、前記SNSにおける投稿データから複数の前記SNSクライアントの前記特徴量を説明変数、および前記SNSクライアントの分類を目的変数として生成される、ステップと
を備えたことを特徴とする。
一度、分類モデルを生成した後、当該分類モデルを用いてSNSクライアントを分類するが、分類モデルの学習は行わない。すなわち、分類結果や各特徴量の反映(ステップ204および205の実行)をせず、分類モデル生成処理(図6)が初回時に実行されるのみである。
第1の期間を対象として分類モデルを用いてSNSクライアントを分類した後、第1の期間とは別の第2の期間に未知のSNSクライアントが所定数以上発生したことを条件に、第2の期間を対象としてSNSクライアントの分類を行う。第2の期間を対象とした分類の際、分類対象が既知のSNSクライアントの場合は、前回の分類において既に教師データ記憶部131に格納されている各特徴量を用いて分類モデルの更新を行う。一方、分類対象が未知のSNSクライアントの場合は、投稿データ記憶部133に格納された投稿データから各特徴量を算出する。更新した分類モデルのインプットとして、算出した未知のSNSクライアントの各特徴量を用いて、未知のSNSクライアントの分類を行う。
第1の期間を対象として分類モデルを用いてSNSクライアントを分類した後、第1の期間とは別の第2の期間に投稿データが所定数以上発生したことを条件に、第2の期間を対象としてSNSクライアントの分類を行う。第2の期間を対象とした分類の際、分類対象のSNSクライアントが既知であるか未知であるかに関わらず、投稿データ記憶部133に格納された投稿データから各特徴量を算出する。前回の分類において既に教師データ記憶部131に格納されている各特徴量を用いて分類モデルの更新を行い、更新した分類モデルのインプットとして、算出した既知および未知のSNSクライアントの各特徴量を用いて、既知および未知のSNSクライアントの分類を行う。
分類モデルを用いてSNSクライアントを分類した後、当該SNSクライアント分類結果が以前の分類結果と同一であった場合、分類結果および各特徴量の反映を行い、再度、分類モデル生成処理を実行することで、分類モデルの学習を行う。SNSクライアント分類結果が以前の分類結果と同一である場合のみ学習が行われるため、分類結果のブレに対応することができ、より精度の高い分類が可能となる。
SNSクライアントデータ(図2)および教師データ(図3)に期間の概念を持たせ、期間ごとに分類する。すなわち、同一のSNSクライアントであっても、期間ごとに、当該期間における投稿データから各特徴量が算出され、個別のカテゴリに分類される。例えば、SNSクライアント「Patent」は、期間「2014年3月」においてはカテゴリ「本人」であるが、「2014年4月」では、カテゴリ「自動投稿」であるといった分類をすることができる。
Claims (5)
- ソーシャルネットワークサービス(SNS)における投稿データに基づいて、前記投稿データを出力するSNSクライアントをコンピュータが分類する方法であって、前記方法は、
前記コンピュータが、前記投稿データを取得するステップと、
前記コンピュータが、前記取得した投稿データから、SNSクライアント識別子、アカウント識別子、および本文内容を少なくとも抽出し、前記SNSクライアントごとの特徴量を算出するステップであって、前記特徴量は、平均圧縮率および総圧縮率を少なくとも含み、前記平均圧縮率は、前記SNSクライアント識別子および前記アカウント識別子ごとに、前記本文内容を結合し、かつ圧縮した場合の、前記SNSクライアント識別子ごとの平均圧縮率であり、前記総圧縮率は、前記SNSクライアント識別子ごとに前記本文内容を結合し、かつ圧縮した場合の圧縮率である、ステップと、
前記コンピュータが、前記特徴量を学習モデルのインプットデータとして、前記取得した投稿データを出力したSNSクライアントを分類するステップであって、前記学習モデルは、前記SNSにおける投稿データから複数の前記SNSクライアントの前記特徴量を説明変数、および前記SNSクライアントの分類を目的変数として生成される、ステップと
を備えたことを特徴とする方法。 - 前記特徴量は、平均投稿数をさらに含み、前記平均投稿数は、前記SNSクライアント識別子および前記アカウント識別子ごとに算出される投稿数の、前記SNSクライアント識別子ごとの平均投稿数であることを特徴とする請求項1に記載の方法。
- 前記抽出することは、前記取得した投稿データからさらに投稿日時を抽出することを含み、前記特徴量は、投稿間隔平均標準偏差をさらに含み、前記投稿間隔平均標準偏差は、前記投稿日時から、前記SNSクライアント識別子および前記アカウント識別子ごとに投稿間隔を算出し、それぞれの標準偏差から算出される前記SNSクライアント識別子ごとの平均値であることを特徴とする請求項2に記載の方法。
- ソーシャルネットワークサービス(SNS)における投稿データに基づいて、前記投稿データを出力するSNSクライアントを分類する方法をコンピュータに実行させるコンピュータ実行可能命令を有するコンピュータプログラムであって、前記コンピュータプログラムは、前記コンピュータに、
前記投稿データを取得させ、
前記取得した投稿データから、SNSクライアント識別子、アカウント識別子、および本文内容を少なくとも抽出させ、前記SNSクライアントごとの特徴量を算出させ、前記特徴量は、平均圧縮率および総圧縮率を少なくとも含み、前記平均圧縮率は、前記SNSクライアント識別子および前記アカウント識別子ごとに、前記本文内容を結合し、かつ圧縮した場合の、前記SNSクライアント識別子ごとの平均圧縮率であり、前記総圧縮率は、前記SNSクライアント識別子ごとに前記本文内容を結合し、かつ圧縮した場合の圧縮率であり、
前記特徴量を学習モデルのインプットデータとして、前記取得した投稿データを出力したSNSクライアントを分類させ、前記学習モデルは、前記SNSにおける投稿データから複数の前記SNSクライアントの前記特徴量を説明変数、および前記SNSクライアントの分類を目的変数として生成される
ことを特徴とするコンピュータプログラム。 - ソーシャルネットワークサービス(SNS)における投稿データに基づいて、前記投稿データを出力するSNSクライアントを分類するサーバコンピュータであって、前記サーバコンピュータは、
前記投稿データを取得する手段と、
前記取得した投稿データから、SNSクライアント識別子、アカウント識別子、および本文内容を少なくとも抽出し、前記SNSクライアントごとの特徴量を算出する手段であって、前記特徴量は、平均圧縮率および総圧縮率を少なくとも含み、前記平均圧縮率は、前記SNSクライアント識別子および前記アカウント識別子ごとに、前記本文内容を結合し、かつ圧縮した場合の、前記SNSクライアント識別子ごとの平均圧縮率であり、前記総圧縮率は、前記SNSクライアント識別子ごとに前記本文内容を結合し、かつ圧縮した場合の圧縮率である、手段と、
前記特徴量を学習モデルのインプットデータとして、前記取得した投稿データを出力したSNSクライアントを分類する手段であって、前記学習モデルは、前記SNSにおける投稿データから複数の前記SNSクライアントの前記特徴量を説明変数、および前記SNSクライアントの分類を目的変数として生成される、手段と
を備えたことを特徴とするサーバコンピュータ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014127175A JP6306951B2 (ja) | 2014-06-20 | 2014-06-20 | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014127175A JP6306951B2 (ja) | 2014-06-20 | 2014-06-20 | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016006583A JP2016006583A (ja) | 2016-01-14 |
JP6306951B2 true JP6306951B2 (ja) | 2018-04-04 |
Family
ID=55224996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014127175A Active JP6306951B2 (ja) | 2014-06-20 | 2014-06-20 | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6306951B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7396087B2 (ja) | 2020-02-06 | 2023-12-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
JP6857775B1 (ja) * | 2020-12-07 | 2021-04-14 | 株式会社日立製作所 | アカウント分析システム、及びアカウント分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9075829B2 (en) * | 2009-04-10 | 2015-07-07 | Nec Corporation | Clustering apparatus, and clustering method |
JP5525268B2 (ja) * | 2010-01-19 | 2014-06-18 | Kddi株式会社 | 性格推定装置及びプログラム |
JP2012141837A (ja) * | 2011-01-04 | 2012-07-26 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
-
2014
- 2014-06-20 JP JP2014127175A patent/JP6306951B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016006583A (ja) | 2016-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN108304526B (zh) | 一种数据处理方法、装置及服务器 | |
US11436430B2 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
Zhu et al. | Popularity modeling for mobile apps: A sequential approach | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN109598307B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
US10614505B2 (en) | Clustering system, method, and program, and recommendation system | |
US12008609B2 (en) | Method and system for initiating an interface concurrent with generation of a transitory sentiment community | |
JP6306951B2 (ja) | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
CN107644268B (zh) | 一种基于多特征的开源软件项目孵化状态预测方法 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别***及方法 | |
Kolahkaj et al. | A recommender system by using classification based on frequent pattern mining and J48 algorithm | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
JP6457986B2 (ja) | メッセージ分類システム、メッセージ分類方法及びプログラム | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与***、电子设备 | |
CN112507185B (zh) | 用户肖像的确定方法和装置 | |
Mueez et al. | Exploratory data analysis and success prediction of *** play store apps | |
Modak et al. | A Comparative study of Classifiers’ Performance for Gender Classification | |
CN110727798A (zh) | 一种基于朴素贝叶斯分类的节日情感分析方法 | |
Narmadha et al. | Recognizing eminent players from the Indian Premier League using CNN model | |
Aishwarya et al. | Summarization and Prioritization of Amazon Reviews based on multi-level credibility attributes | |
KR102624636B1 (ko) | 자체 피드백 기반의 설문지 생성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6306951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |