JP5708496B2 - テキストマイニングシステム、テキストマイニング方法およびプログラム - Google Patents
テキストマイニングシステム、テキストマイニング方法およびプログラム Download PDFInfo
- Publication number
- JP5708496B2 JP5708496B2 JP2011546195A JP2011546195A JP5708496B2 JP 5708496 B2 JP5708496 B2 JP 5708496B2 JP 2011546195 A JP2011546195 A JP 2011546195A JP 2011546195 A JP2011546195 A JP 2011546195A JP 5708496 B2 JP5708496 B2 JP 5708496B2
- Authority
- JP
- Japan
- Prior art keywords
- target data
- analysis
- analysis target
- data set
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
2 データセット探索部
100 データ処理装置
101 正例集合特定部
102 特徴量計算部
103 特徴表現抽出部
104 分析対象データセット探索部
105 特徴表現網羅率計算部
106 分析コスト推定部
110 入力装置
120 出力装置
Claims (10)
- テキストデータを含む分析対象データを含む分析対象データセットを生成するデータセット生成部と、
前記データセット生成部が生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない、分析対象データセットを探索するデータセット探索部とを
含むテキストマイニングシステム。 - 分析対象データの分析コストを、分析対象データに対する特徴表現リスト中の特徴表現の数に比例する値として計算し、分析対象データセットの分析コストを、分析対象データセットに含まれる各分析対象データの分析コストの和によって計算する分析コスト計算部を含む
請求項1記載のテキストマイニングシステム。 - 分析コスト計算部は、分析対象データの分析コストを、前記分析対象データに対する特徴表現リスト中の特徴表現の数と、前記分析対象データにおける特徴表現あたりの分析コストとの積によって計算する
請求項2記載のテキストマイニングシステム。 - 特徴表現網羅率を、全分析対象データから抽出される特徴表現リストの異なり数に対する、分析対象データセット中の特徴表現リストの異なり数の比として計算する特徴表現網羅率計算部を含む
請求項1から請求項3のうちのいずれか1項に記載のテキストマイニングシステム。 - データセット探索部は、分析コストが予め与えられた値を越えない分析対象データセットの中で、特徴表現網羅率が最も高い分析対象データセットを探索する
請求項1から請求項4のうちのいずれか1項に記載のテキストマイニングシステム。 - データセット探索部は、分析コストが予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、分析コストが前記予め与えられた値を超えると判断する
請求項5記載のテキストマイニングシステム。 - データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットの中で、分析コストが最も低い分析対象データセットを探索する
請求項1から請求項6のうちのいずれか1項に記載のテキストマイニングシステム。 - データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、特徴表現網羅率が前記予め与えられた値を超えると判断する
請求項7記載のテキストマイニングシステム。 - 情報処理装置が、
テキストデータを含む分析対象データを含む分析対象データセットを生成し、
生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する
テキストマイニング方法。 - コンピュータに、
テキストデータを含む分析対象データを含む分析対象データセットを生成する処理と、
生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する処理とを
実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011546195A JP5708496B2 (ja) | 2009-12-17 | 2010-12-15 | テキストマイニングシステム、テキストマイニング方法およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009286318 | 2009-12-17 | ||
JP2009286318 | 2009-12-17 | ||
PCT/JP2010/073060 WO2011074698A1 (ja) | 2009-12-17 | 2010-12-15 | テキストマイニングシステム、テキストマイニング方法および記録媒体 |
JP2011546195A JP5708496B2 (ja) | 2009-12-17 | 2010-12-15 | テキストマイニングシステム、テキストマイニング方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011074698A1 JPWO2011074698A1 (ja) | 2013-05-02 |
JP5708496B2 true JP5708496B2 (ja) | 2015-04-30 |
Family
ID=44167445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011546195A Active JP5708496B2 (ja) | 2009-12-17 | 2010-12-15 | テキストマイニングシステム、テキストマイニング方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120254071A1 (ja) |
JP (1) | JP5708496B2 (ja) |
WO (1) | WO2011074698A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165754A (ja) * | 2003-12-03 | 2005-06-23 | Nec Corp | テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
US8156116B2 (en) * | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
JP4172801B2 (ja) * | 2005-12-02 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストからキーワードを検索する効率的なシステム、および、その方法 |
JP4956298B2 (ja) * | 2007-06-29 | 2012-06-20 | 株式会社東芝 | 辞書構築支援装置 |
US8108332B2 (en) * | 2008-04-21 | 2012-01-31 | International Business Machines Corporation | Methods and systems for selecting features and using the selected features to perform a classification |
US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
US20100332423A1 (en) * | 2009-06-24 | 2010-12-30 | Microsoft Corporation | Generalized active learning |
US20110035211A1 (en) * | 2009-08-07 | 2011-02-10 | Tal Eden | Systems, methods and apparatus for relative frequency based phrase mining |
-
2010
- 2010-12-15 JP JP2011546195A patent/JP5708496B2/ja active Active
- 2010-12-15 WO PCT/JP2010/073060 patent/WO2011074698A1/ja active Application Filing
- 2010-12-15 US US13/516,641 patent/US20120254071A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165754A (ja) * | 2003-12-03 | 2005-06-23 | Nec Corp | テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム |
Non-Patent Citations (2)
Title |
---|
CSNH200900189003; 櫻井 茂明: '企業評判情報の分析に有効な風評テキストマイニング技術' 東芝レビュー 第64巻,第2号, 20090201, 18-21, 株式会社東芝 * |
JPN6014025018; 櫻井 茂明: '企業評判情報の分析に有効な風評テキストマイニング技術' 東芝レビュー 第64巻,第2号, 20090201, 18-21, 株式会社東芝 * |
Also Published As
Publication number | Publication date |
---|---|
US20120254071A1 (en) | 2012-10-04 |
JPWO2011074698A1 (ja) | 2013-05-02 |
WO2011074698A1 (ja) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148987B (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN108460082B (zh) | 一种推荐方法及装置,电子设备 | |
JP5615857B2 (ja) | 分析装置、分析方法及び分析プログラム | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
EP3506131A1 (en) | Analysis method using graph theory, analysis program, and analysis system | |
CN107392259B (zh) | 构建不均衡样本分类模型的方法和装置 | |
WO2016093837A1 (en) | Determining term scores based on a modified inverse domain frequency | |
JP6182478B2 (ja) | 解析装置及び解析方法 | |
JP5772599B2 (ja) | テキストマイニングシステム、テキストマイニング方法および記録媒体 | |
CN107679737A (zh) | 项目推荐的方法及装置 | |
CN107908662A (zh) | 搜索***的实现方法和实现装置 | |
WO2015101161A1 (zh) | 一种用于生成与目标***对应的用户页面方法和装置 | |
CN112818230A (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN111190967A (zh) | 用户多维度数据处理方法、装置及电子设备 | |
CN109934631A (zh) | 问答信息处理方法、装置及计算机设备 | |
CN111400663B (zh) | 模型训练方法、装置、设备及计算机可读存储介质 | |
WO2018044955A1 (en) | Systems and methods for measuring collected content significance | |
JP5708496B2 (ja) | テキストマイニングシステム、テキストマイニング方法およびプログラム | |
CN114445043B (zh) | 基于开放生态化云erp异质图用户需求精准发现方法及*** | |
JP2020154512A (ja) | 文分類装置、文分類方法及び文分類プログラム | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN113722593A (zh) | 事件数据处理方法、装置、电子设备和介质 | |
CN113946755A (zh) | 基于关联规则的信息推送方法、装置、设备及存储介质 | |
CN112906723A (zh) | 一种特征选择的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5708496 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |