JP5708496B2 - テキストマイニングシステム、テキストマイニング方法およびプログラム - Google Patents

テキストマイニングシステム、テキストマイニング方法およびプログラム Download PDF

Info

Publication number
JP5708496B2
JP5708496B2 JP2011546195A JP2011546195A JP5708496B2 JP 5708496 B2 JP5708496 B2 JP 5708496B2 JP 2011546195 A JP2011546195 A JP 2011546195A JP 2011546195 A JP2011546195 A JP 2011546195A JP 5708496 B2 JP5708496 B2 JP 5708496B2
Authority
JP
Japan
Prior art keywords
target data
analysis
analysis target
data set
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011546195A
Other languages
English (en)
Other versions
JPWO2011074698A1 (ja
Inventor
石川 開
開 石川
安藤 真一
真一 安藤
晃裕 田村
晃裕 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011546195A priority Critical patent/JP5708496B2/ja
Publication of JPWO2011074698A1 publication Critical patent/JPWO2011074698A1/ja
Application granted granted Critical
Publication of JP5708496B2 publication Critical patent/JP5708496B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、テキストマイニングシステム、テキストマイニング方法およびプログラムに関する。
複数の分析対象データを対象とする分析を目的とした、テキストマイニングシステムの一例が、特許文献1に記載されている。
このテキストマイニングシステムが分析の対象とするデータとは、具体的には、以下に挙げるデータを含んでいる。そのデータとは、“2000年から2009年までの4月のデータ”などといった、異なる期間に取得された複数の分析対象データである。また例えばそのデータとは、コールセンターの通話テキスト、応対履歴、電子メール、Web (World Wide Web)上の様々な電子掲示板(以下、掲示板とも記される)、アンケートなど、様々な異なる手段によって取得された複数の分析対象データである。
このテキストマイニングシステムは、図1に示すように、入力装置10と、出力装置20と、データ処理装置30と、記憶装置40とから構成されている。
また、記憶装置40は、分析対象データ記憶手段41と、特徴表現リスト記憶手段42とから構成される。分析対象データ記憶手段41は、二つ以上のテキストデータ集合を分析対象データとして記憶する。特徴表現リスト記憶手段42は、特徴表現抽出手段によって得られた特徴表現及びその特徴度の集合を特徴表現リストとして記憶する。
また、データ処理装置30は、特徴表現抽出手段31と、比較設定手段32と、比較一覧表示手段33と、比較特徴抽出手段34とから構成される。特徴表現抽出手段31は、各分析対象データから特徴表現及びその特徴度の集合を特徴表現リストとして抽出する。比較設定手段32は、分析者の入力情報に基づき比較条件を設定する。比較一覧表示手段33は、比較分析の対象とする分析対象データの特徴表現リストを比較一覧として表示する。比較特徴抽出手段34は、設定された比較条件にしたがって比較一覧から比較分析を実行し、比較特徴を抽出する。
このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、特徴表現抽出手段31は、二つ以上の分析対象データから特徴表現を抽出する処理を実行し、抽出した特徴表現及びその特徴度の集合を特徴表現リストとして特徴表現リスト記憶手段42に記憶させる。次に、比較設定手段32が分析者の入力情報に基づき比較条件を設定すると、比較一覧表示手段33は、分析対象とする分析対象データの特徴表現リストを比較一覧として表示するように制御する。また、比較特徴抽出手段34は、比較条件にしたがって同比較一覧から比較分析を行い、比較特徴を抽出して出力するように動作する。
特開2005−165754号公報
上記の特許文献1で示したシステムの問題点は、複数の分析対象データを分析する場合には、これら複数のデータを統合的に分析する必要があり、分析者の分析コストが著しく大きくなるということである。
その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データを統合的に分析するために、分析対象データの組み合わせについて比較分析を行わなくてはならないことである。さらに、分析者が分析軸を試行錯誤しながら変更することによって分析を行う場合、分析軸の変更に伴って特徴表現リストも更新されるため、分析者は、分析軸の変更の度に上記の分析データの組み合わせに対する比較分析を行う必要がある。第二の理由は、分析軸の試行錯誤を含めた全体での分析にかかる時間や手間など(分析コストとも記される)が著しく増加することとなることである。
そこで、本発明は、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができるテキストマイニングシステム、テキストマイニング方法及びプログラムを提供することを目的とする。
本発明の一態様によるテキストマイニングシステムは、テキストデータを含む分析対象データを含む分析対象データセットを生成するデータセット生成部と、前記データセット生成部が生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない、分析対象データセットを探索するデータセット探索部とを含む。
本発明の一態様におけるテキストマイニング方法は、テキストデータを含む分析対象データを含む分析対象データセットを生成し、生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する。
本発明の一態様におけるプログラムは、コンピュータに、テキストデータを含む分析対象データを含む分析対象データセットを生成する処理と、生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、または、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する処理とを実行させる。
本発明によれば、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができる。
図1は、テキストマイニングシステムの構成例を示すブロック図である。 図2は、テキストマイニングシステムの構成例を示すブロック図である。 図3は、本発明によるテキストマイニングシステムの構成例を示すブロック図である。 図4は、テキストマイニングシステムが実行する動作例を示す流れ図である。 図5は、Web上の掲示板Aから取得された分析対象データの例を示す説明図である。 図6は、異なる手段で取得された複数の分析対象データセットの例を示す説明図である。 図7は、分析対象データごとの「特徴表現リストの表現数」と「1表現あたりの分析コスト」との例を示す説明図である。 図8は、可能な分析対象データセットとその特徴表現網羅率および分析コストとの例を示す説明図である。 図9は、テキストマイニングシステムの最小の機能構成例を示す機能ブロック図である。
次に、本発明によるテキストマイニングシステムの実施形態について図面を参照して説明する。図3は、本実施形態におけるテキストマイニングシステムの構成の一例を示すブロック図である。
図3を参照すると、本実施形態におけるテキストマイニングシステムは、プログラム制御により動作するデータ処理装置100(例えば、中央処理装置やプロセッサ)と、入力装置110と、出力装置120とを含む。
データ処理装置100は、正例集合特定部101と、特徴量計算部102と、特徴表現抽出部103と、分析対象データセット探索部104と、特徴表現網羅率計算部105と、分析コスト推定部106とを含む。これらの各部はそれぞれつぎのように動作する。
正例集合特定部101は、具体的には、プログラムに従って動作する情報処理装置のCPU (Central Processing Unit)によって実現される。正例集合特定部101は、入力装置110から分析軸と、複数の分析対象データとを入力し、各分析対象データから、分析軸に対する正例のテキスト集合を特定する機能を備えている。正例集合特定部101は、各分析対象データの全テキスト集合と特定した正例のテキスト集合とを特徴量計算部102に出力する機能を備えている。なお、分析軸とは、分析するための観点を示す。また、正例のテキスト集合とは、分析軸で示される観点に合致するテキストの集合である。
特徴量計算部102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴量計算部102は、正例集合特定部101から、各分析対象データの全テキスト集合と分析軸に対する正例のテキスト集合とを入力し、テキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する機能を備えている。特徴量計算部102は、分析対象データごとの表現と計算した特徴量との対の集合を特徴表現抽出部103に出力する機能を備えている。
特徴表現抽出部103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との対の集合を入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する機能を備えている。例えば、特徴表現抽出部103は、特徴量の値の大きな表現として、特徴量が所定の閾値以上である表現や、特徴量の値が上位一定の割合以内となる表現などを抽出する。特徴表現抽出部103は、抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104、特徴表現網羅率計算部105、および、分析コスト推定部106に出力する機能を備えている。
分析対象データセット探索部104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象の候補となる複数の分析対象データから、1以上の分析対象データを含む分析対象データセットを複数生成する機能を備えている。分析対象データセット探索部104は、生成した分析対象データセットを、特徴表現網羅率計算部105および分析コスト推定部106に出力する機能を備えている。
分析対象データセット探索部104は、特徴表現網羅率計算部105から分析対象データセットに対する特徴表現網羅率を入力し、分析コスト推定部106から分析対象データセットに対する分析コストを入力する機能を備えている。なお、特徴表現網羅率とは、具体的には、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いを示す。分析対象データセット探索部104は、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索し、探索した分析対象データセットから抽出する特徴表現をマイニング結果として、出力装置120に出力する機能を備えている。
特徴表現網羅率計算部105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現網羅率計算部105は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットを入力する機能を備えている。特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算し、その値を分析対象データセット探索部104に出力する機能を備えている。
分析コスト推定部106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分析コスト推定部106は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットの候補を入力する機能を備えている。分析コスト推定部106は、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算し、その値を分析対象データセット探索部104に出力する機能を備えている。分析コスト推定部106は、特徴表現のリストの分析コストを、例えば、特徴表現のリストに含まれる特徴表現の数に比例すると仮定して計算することができる。
入力装置110は、具体的には、キーボードやマウス等の装置によって実現される。入力装置110は、分析者の操作に従って分析の観点(分析軸)を示すデータや分析対象データを入力する機能を備えている。
出力装置120は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力装置120は、分析対象データセット探索部104が出力したデータを表示部に表示する機能を備えている。なお、本実施形態では、出力装置120は、データを表示部に表示するが、例えば、データをファイル出力するものであってもよい。
次に、図3及び図4を参照して本発明の実施形態の全体の動作について説明する。図4は、本実施形態におけるテキストマイニングシステムが実行する処理例を示すフローチャートである。
所定のデータを所定の観点に基づいて分析するために、分析者が入力装置110を用いて入力操作をすると、入力装置110は、分析者の操作に従って、分析の観点(分析軸)を示すデータと複数の分析対象データとを入力する。正例集合特定部101は、入力装置110から分析の観点(分析軸)を示すデータと、複数の分析対象データとを入力し、各分析対象データから、分析軸に対する正例のテキスト集合(以下、正例集合とも記される)を特定する。そして、正例集合特定部101は、各分析対象データの全テキスト集合と特定した正例のテキスト集合とを、特徴量計算部102に出力する(図4のステップA1)。
次に、特徴量計算部102は、正例集合特定部101から、各分析対象データの全テキスト集合と分析軸に対する正例のテキスト集合とを入力し、テキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する。そして、特徴量計算部102は、分析対象データごとの表現と計算した特徴量との対の集合を、特徴表現抽出部103に出力する(ステップA2)。
次に、特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との対の集合を入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する。例えば、特徴表現抽出部103は、特徴量の値の大きな表現として、特徴量が所定の閾値以上である表現や、特徴量の値が上位一定の割合以内となる表現などを抽出する。そして、特徴表現抽出部103は、抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104、特徴表現網羅率計算部105、および、分析コスト推定部106に出力する(ステップA3)。
次に、分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象の候補となる複数の分析対象データから、1つ以上の分析対象データを含む分析対象データセットを複数生成する。そして、分析対象データセット探索部104は、生成した分析対象データセットを、特徴表現網羅率計算部105および分析コスト推定部106に出力する。
続いて、特徴表現網羅率計算部105は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットを入力する。そして、特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算し、その値を分析対象データセット探索部104に出力する。
また、分析コスト推定部106は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力し、分析対象データセット探索部104から、分析対象データセットの候補を入力する。そして、分析コスト推定部106は、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算し、その値を分析対象データセット探索部104に出力する(ステップA4)。分析コスト推定部106は、特徴表現のリストの分析コストを、例えば、特徴表現のリストに含まれる特徴表現の数に比例すると仮定して計算することができる。
次に、分析対象データセット探索部104は、特徴表現網羅率計算部105から分析対象データセットに対する特徴表現網羅率を入力し、分析コスト推定部106から分析対象データセットに対する分析コストを入力する。そして、分析対象データセット探索部104は、生成した分析対象データセットから、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索する(ステップA5)。
最後に、分析対象データセット探索部104は、ステップA5で得られた最適な分析対象データセットから抽出する特徴表現を、マイニング結果として、出力装置120に出力する(ステップA6)。その後出力装置120は、例えば、分析対象データセット探索部104が出力したマイニング結果を表示部に表示する。
次に、本実施形態の効果について説明する。本実施形態では、データ処理装置と、入力装置と、出力装置とを備えている。さらにデータ処理装置は、正例集合特定部と、特徴量計算部と、特徴表現抽出部と、分析対象データセット探索部と、特徴表現網羅率計算部と、分析コスト推定部とを備えている。データ処理装置は、分析の観点から抽出される特徴表現の特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットを探索する。そしてデータ処理装置は、探索する分析対象データセットから抽出される特徴表現をマイニング結果として出力装置に出力する。
分析対象の候補となる分析対象データが複数存在し、その中の一つまたは一部の分析対象データに予め分析対象を絞ったとすると、分析者が動的に選択する分析の観点に対して特徴表現を十分に網羅できないような場合について考える。このような場合であっても、本実施形態では、分析の観点に対して、特徴表現の網羅性を十分に満たすようにすることができ、かつ、分析コストに無駄が極力生じないようにすることができる。
次に、具体的な例を用いて本実施形態におけるテキストマイニングシステムの動作を説明する。まず、図4のステップA1における動作を説明する。
正例集合特定部101は、入力装置110から分析軸と、複数の分析対象データとを入力する。ここでは、各分析対象データの個々のテキストに属性値が付与されている場合を考える。この場合、分析者は、分析軸を、この属性値について特定の値を指定することで設定することができる。なお、属性値が付与されていない場合でも、分析者は、テキストから属性値を生成することにより、分析軸の設定が可能である。例えば、分析者が入力装置110を用いて属性値について特定の値を指定する操作を行うと、入力装置110は、分析者の操作に従って、指定された値に基づく分析軸を正例集合特定部101に出力する。なお、以下の説明において、“分析者が所定の値等を指定する”との表現は、具体的には、“入力装置110が分析者の操作に従って所定の値を入力し、指定する”ことを意味する。
具体例として、ある化粧品販売会社が、各種化粧品に関する顧客の声を収集する目的で、分析対象データを取得し、これらを統合的に分析する場合を考える。この化粧品販売会社は、コールセンターの通話、応対履歴、電子メール、Web上の掲示板、あるいは、アンケートなどといった異なる手段を用いて複数の分析対象データを取得する。ここで、分析者が、“30歳代の顧客から低い評価が与えられている化粧水関連商品への記述における特徴”、という分析軸において分析を行う場合について考える。
例えば、複数の分析対象データのうち、掲示板Aから取得された分析対象データが図5に示すような属性値付きのテキスト集合として得られている場合について考える。この場合、分析者の指定する分析軸に対する正例は、具体的には、属性値が「種別=化粧水、年齢=30-39、評価=1-3」を満たすような事例を抽出することで得られる。したがって、図5に示した事例の中では、正例集合特定部101は、条件を満たすID=2を正例として抽出する。正例集合特定部101は、こうして抽出した分析対象データごとのテキスト集合全体と正例集合とを、特徴量計算部102に出力する。
次に、ステップA2における動作を説明する。特徴量計算部102は、正例集合特定部101から、各分析対象データのテキスト集合全体と分析の観点に対する正例集合とを入力し、テキスト中から表現を抽出する。
具体例として、特徴量計算部102は、形態素解析結果から得られる自立語を表現として抽出する場合、例えば、「香さえ良ければ使っていたかな。」という文からは、「香」、「良い」、「使う」を表現として抽出する。
例えば、掲示板Aから取得された分析対象データのテキスト集合1,452件において、表現「香」が51回出現し、分析の観点「種別=化粧水、年齢=30-39、評価=1-3」に対する正例集合305件において、表現「香」が34回出現した場合について考える。この場合、特徴量計算部102は、特徴量をこれらの出現の統計的差異から計算する。
例えば、特徴量としてカイ2乗分布が用いられる場合、特徴量計算部102は、以下に示す式(1)〜(3)を用いて特徴量を計算することができる。なお、特徴量計算部102は、特徴量として、カイ2乗分布の他に、Stochastic Complexity、Extended Stochastic Complexityなど、相関性に関する様々な尺度を用いても計算することができる。
Figure 0005708496
上記の、掲示板Aから取得された分析対象データ中の表現「香」の例では、N=1452、O11=34、O12=51-34=17、O21=305-34=271、O22=1452-305-51+34=1130となる。よって、特徴量計算部102は、カイ2乗の値を、式(4)〜(6)に示すように計算する。
Figure 0005708496
特徴量計算部102は、同様に、それぞれの手段で取得された分析対象データにおいて、テキスト集合から抽出されるすべての表現に対して特徴量を求める。そして特徴量計算部102は、分析対象データごとの表現と特徴量との組のリストを特徴表現抽出部103に出力する。
次に、ステップA3における動作を説明する。特徴表現抽出部103は、特徴量計算部102から分析対象データごとの表現と特徴量との組のリストを入力し、分析対象データごとに、特徴量の値の大きな表現を特徴表現として抽出する。
特徴量の値が大きいかどうかを判断する具体的な方法として、以下の方法がある。例えば、テキストマイニングシステムは、分析者が指定する閾値を全分析対象データに共通の特徴量の閾値として設定してもよい。これにより、特徴表現抽出部103は、特徴量の値がこの閾値を超える表現を特徴表現として抽出することができる。または、分析者が特徴表現の抽出率を指定するようにしても良い。この場合、特徴表現抽出部103は、全分析対象データに含まれる表現の総数に対して、抽出される特徴表現の総数の比が指定された抽出率となるように、全分析対象データに共通の特徴量の閾値を調整することで、抽出処理を実施することができる。
特徴表現抽出部103は、このようにして抽出した各分析対象データの特徴表現のリストを分析対象データセット探索部104に出力する。
次に、ステップA4における動作を説明する。分析対象データセット探索部104は、特徴表現抽出部103から、各分析対象データの特徴表現のリストを入力する。そして、分析対象データセット探索部104は、分析対象の候補となる全分析対象データから、1つ以上の分析対象データの組を含む分析対象データセットを、可能な組み合わせについて全て生成する。
具体例として、コールセンターの通話、応対履歴、電子メール、Web上の口コミサイト、掲示板、アンケートといった異なる手段で取得された全10の分析対象データが、それぞれ、「通話」、「履歴」、「mail」、「サイト」、「板A」、「板B」、「板C」、「板D」、「板E」、「板F」と表記されているとする。なお、板Aは掲示板Aを意味する。板B、板C、板D、板E、および、板Fについても同様に、掲示板B、掲示板C、掲示板D、掲示板E、および、掲示板Fをそれぞれ意味する。すると、分析対象データセット探索部104は、分析対象データの可能な組み合わせとして、図6に示すような分析対象データセットを生成する。
例えば、「通話+履歴+mail」は、「通話」、「履歴」及び「mail」の3つの分析対象データを含む分析対象データセットであることを表す。さらに、同分析対象データセットは、別の「通話+履歴」、「通話+mail」、「履歴+mail」の3つの分析対象データセットからリンクされている(矢印で結ばれている)。これは、同分析対象データセットが3つの分析対象データセットに含まれる3つの分析対象データ「通話」、「履歴」及び「mail」をすべて内包する関係にあることを示す。
続いて、特徴表現網羅率計算部105は、分析対象データセットに対する特徴表現網羅率を、全分析対象データに対する特徴表現のリストと分析対象データセットに対する特徴表現のリストとから計算する。
特徴表現網羅率計算部105は、例えば、分析対象データセット「通話+履歴+mail」に対する特徴表現網羅率を、同分析対象データセットに含まれる「通話」、「履歴」及び「mail」の3つの分析対象データから抽出される特徴表現の異なり数を全10の分析対象データから抽出される特徴表現の異なり数で割った値として計算することができる。なお、異なり数とは、特徴表現が何種類あるかを表すものである。
また、分析コスト推定部106は、同様に、分析対象データセットに対する分析コストを、分析対象データセットに含まれる各分析対象データに対する特徴表現のリストの分析コストの和から計算する。
分析コスト推定部106は、例えば、分析対象データセット「通話+履歴+mail」に対する分析コストを、同分析対象データセットに含まれる「通話」、「履歴」及び「mail」の3つの分析対象データから抽出される特徴表現リストの分析コストの和として計算できる。各分析対象データから抽出される特徴表現リストの分析コストを、分析コスト推定部106は、たとえば分析対象データごとの「特徴表現リストの表現数」と、「1表現あたりの分析コスト」との積で計算することができる。ここで、各分析対象データの「特徴表現リストの表現数」と、「1表現あたりの分析コスト」とが、図7に示すとおりであった場合について考える。この場合、分析コスト推定部106は、分析対象データセット「通話+履歴+mail」に対する分析コストを、分析対象データ「通話」、「履歴」及び「mail」のそれぞれにおける「特徴表現リストの表現数」と「1表現あたりの分析コスト」との積の和、すなわち、182×10+224×1+336×3=3102と計算することができる。なお、「1表現あたりの分析コスト」は、例えば、予め分析者によって分析対象データの取得部に応じて設定される。
特徴表現網羅率計算部105と分析コスト推定部106とは、このように計算した、分析対象データセットの網羅率と分析コストとを、それぞれ分析対象データセット探索部104に出力する。
次に、ステップA5における動作を説明する。分析対象データセット探索部104は、特徴表現網羅率計算部105および分析コスト推定部106が計算した、各分析対象データセットに対する特徴表現網羅率および分析コストに基づいて、特徴表現網羅率が高く、かつ、分析コストが低くなるような、最適な分析対象データセットの探索を行う。
例えば、特徴表現網羅率が70%以上で、かつ、分析コストが最小となるような分析対象データセットを、分析者が最適な分析対象データセットとして指定した場合について考える。この場合、分析対象データセット探索部104は、最適な分析対象データセットを、図8に示すような、分析対象データセットのネットワークを探索することによって求めることができる。
図8に示す例において、各分析対象データセットの下に記載されているデータは、その分析対象データセットの特徴表現網羅率と分析コストとである。分析対象データセット探索部104は、このようなネットワークにおいて、最適な分析対象データセットを、図8中の最左の丸印を基点として、矢印を順次辿ることにより探索することができる。
分析対象データセット探索部104が順次探索していく中で、例えば図8中の「通話+履歴+mail」のように、特徴表現網羅率が所定の70%を超える分析対象データセットを分析対象データセット探索部104が検出する場合について考える。この場合、「通話+履歴+mail」より右側にリンクされている分析対象データセット(たとえば「通話+履歴+mail+サイト」など)は、すべて「通話+履歴+mail」に含まれる分析対象データを内包する。そのため、分析対象データセット探索部104は、「通話+履歴+mail」より右側にリンクされている分析対象データセットの特徴表現網羅率を、「通話+履歴+mail」の特徴表現網羅率よりも大きく、したがって、所定の70%を超えると判断できる。
また、「通話+履歴+mail」より右側にリンクされている分析対象データセットは、分析コストも、「通話+履歴+mail」の分析コストを超える。したがって、これらの分析対象データセットの右側にリンクされている全ての分析対象データセットは、特徴表現網羅率の条件を満たすが、分析コストがより大きいため、分析対象データセット探索部104は、最適な分析対象データセットとはならないと判断できる。そのため、分析対象データセット探索部104は、簡単に順次リンクを辿ることにより最適な分析対象データセットに該当しないと判断することが出来る。(なお、探索処理と同期して、特徴表現網羅率と分析コストとの評価を行う実装においては、上記のような最適な分析対象データセットに該当しない分析対象データセットに関する特徴表現網羅率と分析コストとの計算が不要となる)。上記処理の結果、分析対象データセット探索部104は、図8に示す範囲では、特徴表現網羅率が70%を超える「通話+履歴+mail」、「通話+履歴+板B」、「通話+履歴+板E」、「履歴+mail+サイト」及び「履歴+mail+板A」を候補として残す。
このようにして、分析対象データセット探索部104は、全てのリンクを辿った後、得られた特徴表現網羅率の条件を満たす候補のうち、最も分析コストの値が低い分析対象データセットを最適な分析対象データセットとして求める。たとえば、「通話+履歴+mail」、「通話+履歴+板B」、「通話+履歴+板E」、「履歴+mail+サイト」、「履歴+mail+板A」の中では、分析対象データセット探索部104は、「通話+履歴+板E」の分析コストが2,692で、最も低く、最適な分析対象データセットであると判断する。
最後に、ステップA6の動作を説明する。分析対象データセット探索部104は、ステップA5で得られた最適な分析対象データセットから抽出する特徴表現をマイニング結果として、出力装置120に出力する。
例えば、最適な分析対象データセットが「通話+履歴+板E」であった場合、分析対象データセット探索部104は、同分析対象データセットに含まれる「通話」、「履歴」、「板E」の3つの分析対象データから特徴表現リストを抽出する。そして分析対象データセット探索部104は、抽出した特徴表現リストをマイニング結果として出力装置120に出力する。その後、出力装置120は、例えば、マイニング結果を表示部に表示する。
以上の説明によれば、ある化粧品販売会社が、各種化粧品に関する顧客の声を収集する目的で、コールセンターの通話、応対履歴、電子メール、Web上の掲示板、アンケートといった異なる手段で複数の分析対象データを取得し、これらを統合的に分析することができる。具体的には、分析者が、30歳代の顧客から低い評価が与えられている化粧水関連商品への記述における特徴、という分析軸において分析を行う場合に、分析対象データセット探索部104は以下のように実行すればよい。すなわち分析対象データセット探索部104は、この分析軸に対する各分析対象データからの特徴表現を70%以上網羅する、分析コスト最小の分析対象データセット「通話+履歴+板E」を選択し、その特徴表現リストをマイニング結果として出力する。そのため本実施形態のテキストマイニングシステムは、所定の特徴表現網羅率を満たし、かつ、分析コストを、全ての分析対象データを分析対象とした場合と比較しておよそ2692/(1870+224+1008+240+268+608+428+310+598+170)=47%に縮小することが可能となる。
また、他の例として、例えば、分析者は、分析コストが3,000以下で、かつ、特徴表現網羅率が最大となるような分析対象データセットを最適な分析対象データセットとして指定することも出来る。この場合でも、分析対象データセット探索部104は、最適な分析対象データセットを、前述の例と同様に、図8に示す分析対象データセットのネットワークを探索することによって求めることができる。
分析対象データセット探索部104は、探索方法として、同様に、図8中の最左の丸印を基点として、矢印を順次辿ることにより探索する方法を用いることができる。例えば、分析対象データセット探索部104が、分析コストが3,000を超える分析対象データセットを、最適な分析対象データセットに該当しないと判断する対象とする場合について考える。この場合、この分析対象データセットと、その右側にリンクされている全ての分析対象データセットとが、すべて分析コストが3,000を超え、条件を満たさない。よって、分析対象データセット探索部104は、最適な分析対象データセットに該当しないと判断することができる。
分析対象データセット探索部104は、このようにして、全てのリンクを辿ったら、残った分析コストが3,000を下回る分析対象データセットの候補のうち、最も特徴表現網羅率の値が大きい分析対象データセットを最適な分析対象データセットとして求める。分析対象データセット探索部104は、図8に示す範囲では、「通話+履歴+板B」が、分析コストが3,000を下回る分析対象データセットの中で、特徴表現網羅率が78.6%と最大のため、最適な分析対象データセットとして選択する。
以上の方法により、本実施形態では、分析者が、分析コストの上限を設定した場合でも、特徴表現網羅率が最大となるような分析対象データセットを選択し、その分析対象データセットに対応する特徴表現リストをマイニング結果として出力する。したがって、分析コストが限られている場合でも、その中で分析の効率を最大化するようなマイニング結果を出力することができる。
以上のことから、本発明は、以下のような課題を解決するための手段を備えているといえる。本発明によるテキストマイニングシステムは、データ処理装置と、出力装置と、入力装置とを備えている。また、データ処理装置は、正例集合特定部と、特徴量計算部と、特徴表現抽出部と、分析対象データセット探索部と、特徴表現網羅率計算部と、分析コスト推定部とを備えている。データ処理装置は、与えられた分析の観点に対して、特徴表現の網羅率と分析コストに関する条件から最適な分析対象データセットを探索し、最適な分析対象データセットから抽出する特徴表現をマイニング結果として出力する。
テキストマイニングシステムは、このような構成を採用し、分析対象データセットに対する特徴表現リストの特徴表現網羅率が高く、かつ、分析コストが低くなるような分析対象データセットを最適な分析対象データセットして探索する。そして、テキストマイニングシステムは、同分析対象データセットから抽出する特徴表現をマイニング結果として出力することにより本発明の目的を達成することができる。
本発明の効果は、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができるということである。
その理由は、以下のとおりである。すなわち、テキストマイニングシステムは、複数の分析対象データから、特徴表現の網羅率が高く、かつ、分析コストが低くなるような分析対象データセットを最適な分析対象データセットして探索し、同分析対象データセットに対するマイニング結果を出力する。従って、テキストマイニングシステムは、統合的なマイニング結果の大勢に影響を与えずに、分析コストを削減することができる。
関連技術において、テキストマイニングを行う場合に、最初にテキスト集合から分析の観点に対する正例集合を特定して、その特定した正例集合を用いてテキストマイニングを行うように構成されたシステムが用いられる場合があった。以下、正例集合を特定してテキストマイニングを行うテキストマイニングシステムの一例について説明する。図2に示すように、このテキストマイニングシステムは、入力手段11と、出力手段12と、正例集合特定手段13と、特徴量計算手段14と、特徴表現抽出手段15とから構成されている。
このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、入力手段11があるチャネルから取得されたテキスト集合と、分析の観点とを入力すると、正例集合特定手段13は、テキスト集合の中で、分析の観点に対する正例集合を特定する。次に、特徴量計算手段14は、テキスト中の各表現に対して、テキスト集合全体と正例集合とでの出現の統計的差異から、表現に対する特徴量を計算する。次に、特徴表現抽出手段15は、特徴量の大きい表現を特徴表現として抽出する。そして、出力手段は、特徴表現抽出手段が抽出した特徴表現を出力する。
上記の図2で示したシステムの問題点は、複数の分析対象データを分析する場合には、これら複数のデータを統合的に分析する必要があり、分析者の分析コストが著しく大きくなるということである。
その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データを統合的に分析するために、分析対象データの組み合わせについて比較分析を行わなくてはならないことである。さらに、分析者が分析軸を試行錯誤しながら変更することによって分析を行う場合、分析軸の変更に伴って特徴表現リストも更新されるため、分析者は、分析軸の変更の度に上記の分析データの組み合わせに対する比較分析を行う必要がある。第二の理由は、分析軸の試行錯誤を含めた全体での分析にかかる時間や手間など(以下、分析コスト)が著しく増加することとなることである。
一方、本発明によれば、複数の分析対象データを分析する場合に、これらを統合的に分析する場合でも、分析者の分析コストの増大を抑えることができる。
次に、本発明によるテキストマイニングシステムの最小構成について説明する。図9は、テキストマイニングシステムの最小の構成例を示すブロック図である。図9に示すように、テキストマイニングシステムは、最小の構成要素として、データセット生成部1と、データセット探索部2とを含む。
図9に示す最小構成のテキストマイニングシステムでは、データセット生成部1は、異なる手段で収集された複数の分析対象データから、1つ以上の分析対象データを抽出して構成される分析対象データセットを複数生成する。そして、データセット探索部2は、データセット生成部1が生成した複数の分析対象データセットのうち、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いである特徴表現網羅率が高く、かつ、分析コストが低い分析対象データセットを、最適な分析対象データセットとして探索する。
従って、最小構成のテキストマイニングシステムは、複数の分析対象データを統合的に分析する場合でも、分析コストの増大を抑えることができる。
なお、本実施形態では、以下の(1)〜(8)に示すようなテキストマイニングシステムの特徴的構成が示されている。
(1)テキストマイニングシステムは、異なる手段(例えば、通話や履歴など)で収集された複数の分析対象データから、分析対象データを抽出して構成される分析対象データセット(例えば、「通話」+「履歴」+「mail」など)を複数生成するデータセット生成部(例えば、分析対象データセット探索部104によって実現される)と、データセット生成部が生成した複数の分析対象データセットのうち、分析対象データセット中の特徴表現集合における全分析対象データ中の特徴表現集合の網羅の度合いである特徴表現網羅率が高く、かつ、分析コストが低い分析対象データセットを、最適な分析対象データセットとして探索するデータセット探索部(例えば、分析対象データセット探索部104によって実現される)とを含むことを特徴とする。
(2)テキストマイニングシステムにおいて、分析対象データの分析コストを、分析対象データに対する特徴表現リスト中の特徴表現の数に比例する値として計算し、分析対象データセットの分析コストを、分析対象データセットに含まれる各分析対象データの分析コストの和によって計算する分析コスト計算部(例えば、分析コスト推定部106によって実現される)を含むように構成されていてもよい。
(3)テキストマイニングシステムにおいて、分析コスト計算部は、分析対象データに対する特徴表現リストの分析コストを、特徴表現リストに含まれる特徴表現数と、分析対象データにおける特徴表現あたりの分析コストとの積によって計算するように構成されていてもよい。
(4)テキストマイニングシステムにおいて、特徴表現網羅率を、複数の分析対象データの全てから抽出される特徴表現集合の異なり数に対する、分析対象データセット中の特徴表現集合の異なり数の比として計算する特徴表現網羅率計算部(例えば、特徴表現網羅率計算部105によって実現される)を含むように構成されていてもよい。
(5)テキストマイニングシステムにおいて、データセット探索部は、分析コストが予め与えられた値(例えば、3,000)を越えない分析対象データセットの中で、特徴表現網羅率が最も高い分析対象データセット(例えば、図8に示す範囲では、「通話+履歴+板B」)を最適な分析対象データセットとして探索するように構成されていてもよい。
(6)テキストマイニングシステムにおいて、データセット探索部は、最適な分析対象データセットの探索において、分析コストが予め与えられた値を超える分析対象データセットが得られたとき、分析対象データセットの構成要素である分析対象データをすべて内包する任意の分析対象データセットに対しても、分析コストが予め与えられた値を超えると判断するように構成されていてもよい。
(7)テキストマイニングシステムにおいて、データセット探索部は、特徴表現網羅率が予め与えられた値(例えば、70%)を超える分析対象データセットの中で、分析コストが最も低い分析対象データセット(例えば、図8に示す範囲では、「通話+履歴+板E」)を最適な分析対象データセットとして探索するように構成されていてもよい。
(8)テキストマイニングシステムにおいて、データセット探索部は、最適な分析対象データセットの探索において、特徴表現網羅率が予め与えられた値を超える分析対象データセットが得られたとき、分析対象データセットの構成要素である分析対象データをすべて内包する任意の分析対象データセットに対しても、特徴表現網羅率が予め与えられた値を超えると判断するように構成されていてもよい。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年12月17日に出願された日本出願特願2009-286318を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
本発明は、企業のコンタクトセンターにおける通話、電子メールや、製品サービスに関する消費者の掲示板サイト(Web)、アンケートなどの異なる手段によって取得された複数の分析対象データを対象に、テキストマイニングを用いて統合的に分析することにより顧客要求や製品サービスの問題等の分析を行うといった用途に適用できる。
1 データセット生成部
2 データセット探索部
100 データ処理装置
101 正例集合特定部
102 特徴量計算部
103 特徴表現抽出部
104 分析対象データセット探索部
105 特徴表現網羅率計算部
106 分析コスト推定部
110 入力装置
120 出力装置

Claims (10)

  1. テキストデータを含む分析対象データを含む分析対象データセットを生成するデータセット生成部と、
    前記データセット生成部が生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない、分析対象データセットを探索するデータセット探索部とを
    含むテキストマイニングシステム。
  2. 分析対象データの分析コストを、分析対象データに対する特徴表現リスト中の特徴表現の数に比例する値として計算し、分析対象データセットの分析コストを、分析対象データセットに含まれる各分析対象データの分析コストの和によって計算する分析コスト計算部を含む
    請求項1記載のテキストマイニングシステム。
  3. 分析コスト計算部は、分析対象データの分析コストを、前記分析対象データに対する特徴表現リスト中の特徴表現の数と、前記分析対象データにおける特徴表現あたりの分析コストとの積によって計算する
    請求項2記載のテキストマイニングシステム。
  4. 特徴表現網羅率を、全分析対象データから抽出される特徴表現リストの異なり数に対する、分析対象データセット中の特徴表現リストの異なり数の比として計算する特徴表現網羅率計算部を含む
    請求項1から請求項3のうちのいずれか1項に記載のテキストマイニングシステム。
  5. データセット探索部は、分析コストが予め与えられた値を越えない分析対象データセットの中で、特徴表現網羅率が最も高い分析対象データセットを探索する
    請求項1から請求項4のうちのいずれか1項に記載のテキストマイニングシステム。
  6. データセット探索部は、分析コストが予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、分析コストが前記予め与えられた値を超えると判断する
    請求項5記載のテキストマイニングシステム。
  7. データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットの中で、分析コストが最も低い分析対象データセットを探索する
    請求項1から請求項6のうちのいずれか1項に記載のテキストマイニングシステム。
  8. データセット探索部は、特徴表現網羅率が予め与えられた値を超える分析対象データセットが含む分析対象データをすべて内包する任意の分析対象データセットに対しても、特徴表現網羅率が前記予め与えられた値を超えると判断する
    請求項7記載のテキストマイニングシステム。
  9. 情報処理装置が、
    テキストデータを含む分析対象データを含む分析対象データセットを生成し、
    生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する
    テキストマイニング方法。
  10. コンピュータに、
    テキストデータを含む分析対象データを含む分析対象データセットを生成する処理と、
    生成した分析対象データセットのうち、該分析対象データセット中のテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストに含まれる特徴表現の数が全分析対象データ中の特徴表現の数に占める割合である特徴表現網羅率が、予め与えられた値を越える、かつ、該分析対象データセットに含まれる特徴表現の数に基づいて定められる分析コストが予め与えられた値を越えない分析対象データセットを探索する処理とを
    実行させるためのプログラム。
JP2011546195A 2009-12-17 2010-12-15 テキストマイニングシステム、テキストマイニング方法およびプログラム Active JP5708496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011546195A JP5708496B2 (ja) 2009-12-17 2010-12-15 テキストマイニングシステム、テキストマイニング方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009286318 2009-12-17
JP2009286318 2009-12-17
PCT/JP2010/073060 WO2011074698A1 (ja) 2009-12-17 2010-12-15 テキストマイニングシステム、テキストマイニング方法および記録媒体
JP2011546195A JP5708496B2 (ja) 2009-12-17 2010-12-15 テキストマイニングシステム、テキストマイニング方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2011074698A1 JPWO2011074698A1 (ja) 2013-05-02
JP5708496B2 true JP5708496B2 (ja) 2015-04-30

Family

ID=44167445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011546195A Active JP5708496B2 (ja) 2009-12-17 2010-12-15 テキストマイニングシステム、テキストマイニング方法およびプログラム

Country Status (3)

Country Link
US (1) US20120254071A1 (ja)
JP (1) JP5708496B2 (ja)
WO (1) WO2011074698A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165754A (ja) * 2003-12-03 2005-06-23 Nec Corp テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
JP4956298B2 (ja) * 2007-06-29 2012-06-20 株式会社東芝 辞書構築支援装置
US8108332B2 (en) * 2008-04-21 2012-01-31 International Business Machines Corporation Methods and systems for selecting features and using the selected features to perform a classification
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US20100332423A1 (en) * 2009-06-24 2010-12-30 Microsoft Corporation Generalized active learning
US20110035211A1 (en) * 2009-08-07 2011-02-10 Tal Eden Systems, methods and apparatus for relative frequency based phrase mining

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165754A (ja) * 2003-12-03 2005-06-23 Nec Corp テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH200900189003; 櫻井 茂明: '企業評判情報の分析に有効な風評テキストマイニング技術' 東芝レビュー 第64巻,第2号, 20090201, 18-21, 株式会社東芝 *
JPN6014025018; 櫻井 茂明: '企業評判情報の分析に有効な風評テキストマイニング技術' 東芝レビュー 第64巻,第2号, 20090201, 18-21, 株式会社東芝 *

Also Published As

Publication number Publication date
US20120254071A1 (en) 2012-10-04
JPWO2011074698A1 (ja) 2013-05-02
WO2011074698A1 (ja) 2011-06-23

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN108460082B (zh) 一种推荐方法及装置,电子设备
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
CN107908616B (zh) 预测趋势词的方法和装置
EP3506131A1 (en) Analysis method using graph theory, analysis program, and analysis system
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
JP6182478B2 (ja) 解析装置及び解析方法
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
CN107679737A (zh) 项目推荐的方法及装置
CN107908662A (zh) 搜索***的实现方法和实现装置
WO2015101161A1 (zh) 一种用于生成与目标***对应的用户页面方法和装置
CN112818230A (zh) 内容推荐方法、装置、电子设备和存储介质
CN111190967A (zh) 用户多维度数据处理方法、装置及电子设备
CN109934631A (zh) 问答信息处理方法、装置及计算机设备
CN111400663B (zh) 模型训练方法、装置、设备及计算机可读存储介质
WO2018044955A1 (en) Systems and methods for measuring collected content significance
JP5708496B2 (ja) テキストマイニングシステム、テキストマイニング方法およびプログラム
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及***
JP2020154512A (ja) 文分類装置、文分類方法及び文分類プログラム
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN110852078A (zh) 生成标题的方法和装置
CN113722593A (zh) 事件数据处理方法、装置、电子设备和介质
CN113946755A (zh) 基于关联规则的信息推送方法、装置、设备及存储介质
CN112906723A (zh) 一种特征选择的方法和装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5708496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150