JP2012173800A - 抽出装置、抽出方法および抽出プログラム - Google Patents
抽出装置、抽出方法および抽出プログラム Download PDFInfo
- Publication number
- JP2012173800A JP2012173800A JP2011032415A JP2011032415A JP2012173800A JP 2012173800 A JP2012173800 A JP 2012173800A JP 2011032415 A JP2011032415 A JP 2011032415A JP 2011032415 A JP2011032415 A JP 2011032415A JP 2012173800 A JP2012173800 A JP 2012173800A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- word
- information indicating
- degree
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部104と、クラスタ記憶部104から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを反映する発見性指数を算出する発見性指数算出部110と、算出された発見性指数に基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出部130を備える。
【選択図】図1
Description
組合せ要素となる概念として、2つの概念C1、C2をつなぐ役目をする概念Cnが存在する。抽出装置100は、C1、C2、Cnそれぞれの概念を、新聞やウェブ上の時系列データなどから、流行要因(ヒット要因)として定められた特徴を測る測度を測定することで抽出する。
また、発見性指数算出部110は、間接関連度算出部111と、意外度算出部112と、積算部113とを備える。活性化予測部120は、活性度算出部121と、相対力指数算出部(活性度上昇期待値算出部)122とを備える。
このように、このワードベクトルを時系列順に並べることによって、時間順に所定期間毎の記事の特徴が示される。
クラスタ生成部103は、重要度算出部101から入力されたワードベクトル集合を用いて、単語を所定のまとまりであるクラスタに分類し、クラスタ毎にラベルを付与する。
一例として、k−means法によって、記事集合Dに出現する単語をクラスタリングする。具体的には、クラスタ生成部103は、下記式(1)で表される評価値を最小化するクラスタを算出する。ここで、kは事前に与えられるものとする。
このように、クラスタ生成部103は、k−means法、fuzzy c−means法のいずれを用いても、要素毎にクラスタに所属する所属度を算出する。
またクラスタ記憶部104には、図3(c)に示されたように、クラスタ生成部103による処理の結果、単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが該クラスタ毎に関連付けられて記憶されている。
ここで、発見性指数は2つのクラスタ同士の直接の関連性が低くなるほど高くなり、該2つのクラスタが残りの第3のクラスタと関連性が高くなるほど高くなる。
なお、間接関連度算出部111は、クラスタC_iとクラスタC_jが、接続クラスタCNを経由して関連している程度を示す最大間接関連度MIRを、下記式(6)を用いて算出してもよい。
ベクトルxは原点からクラスタC_iの重心へのベクトル、ベクトルyを原点からクラスタC_jの重心へのベクトルである。例えば、間接関連度算出部111は、以下の式(7)に従って、関連度Aを算出する。
ジャカード係数を用いる場合には、間接関連度算出部111は、C_i、C_jが通常のクラスタの場合、2つのクラスタC_i、C_jのどちらかに出現した単語の出現回数によって関連度Aを算出する。具体的には、間接関連度算出部111は、以下の式(8)に従って関連度Aを算出する。
クラスタC_i、クラスタC_jがfuzzy c−means法で算出されたファジィ集合である場合、間接関連度算出部111は、xpをクラスタC_iのワードベクトルxのp番目要素(pは1からPまでの整数)、yqをクラスタC_jのワードベクトルyのq番目の要素とすると(qは1からQまでの整数)、クラスタC_i、クラスタC_jの関連度を次式(9)で算出する。
間接関連度算出部111は、算出した全ての最大間接関連度MIR(C_i,CN_(i,j),C_j)を示す情報と、その各最大間接関連度MIRを算出する際に用いたクラスタC_i、CN_(i,j)、C_jの組み合わせを示す情報とを積算部113に出力する。
また、意外度算出部112は、相互情報量MIの逆数((式(10)の右辺の逆数))を用いて、意外度を算出してもよい。その場合、具体的には、意外度算出部112は、下記の式(13)に従って、クラスタC_iとクラスタC_j間の意外度U(C_i,C_j)を算出する。
意外度算出部112は、算出した全ての意外度U(C_i,C_j)を示す情報と、その各意外度U(C_i,C_j)が算出された際に用いられたクラスタC_iの識別情報とクラスタC_jの識別情報とを積算部113に出力する。
具体的には、例えば、活性度算出部121は、k番目の期間においてi番目のクラスタC_iの活性度をR(C_i,k)とすると、下記の式(16)に従って、活性度を算出する。
上記の式(15)は、活性度算出部121は、k番目の期間の文書のワードベクトルW_kと、クラスタC_iを表す所属度ベクトルY_iとの類似度を、そのままそのクラスタC_iの活性度として求めるものである。
また、関数simは類似度を表す関数で、コサイン類似度を用いた下記の式(17)で表される。
相対力指数算出部122は、活性度算出部121から入力された各期間のクラスタC_iの活性度R(C_i,k)に基づいて、それぞれのクラスタの活性度の時間的変化に注目し、世の中一般やターゲット市場さらには個人で、各クラスタの活性度の上昇が期待される度合い(活性度上昇期待値)を算出する。
例えば、相対力指数算出部122は、下記の式(19)に従って、相対力指数(RSI)を算出する。
なお、相対力指数算出部122は、活性度上昇期待値として相対力指数RSIを用いたが、これに限らず、他の経済指標を用いてもよい。
具体的には、活性化予測部120は、上記の30という値を一般化して閾値Lとし、上昇を予測する条件を下記の2つとする。1つ目は、(i)過去の一定期間の間に相対力指数(RSI)が閾値Lを下回ったことがあること、2つ目は、(ii)現在の活性値Rが上限Ru、下限RLの間にあることである。活性化予測部120は、これら2つの条件を満たしたときに、これからのクラスタの活性化を予測し、それ以外の場合、これからクラスタが活性化しないと予測する。
クラスタ組抽出部130は、積算部113から発見性指標Sを示す情報を、ターゲット関連性指数算出部114からターゲット関連性指数Nを示す情報を、活性化予測部120から予測結果を示す情報を受け取る。
具体的には、クラスタ組抽出部130は、下記の3つの条件に基づいて、クラスタの組み合わせ(C_i、C_j、CN(i,j))を抽出する。
(2)活性化予測の条件として、クラスタC_i、クラスタC_j、クラスタCN(i,j)のいずれかの相対力指数(RSI)と活性度Rが、それぞれ上述のクラスタの活性化予測条件(i)および(ii)を満足していること、
(3)ターゲット関連性指数Nの条件として、クラスタの組C_i、C_j、CN(i,j)のいずれかが、ターゲットの特性Tと所定の値以上の関連度を持つことである。
なお、クラスタ組抽出部130は、抽出したクラスタの組み合わせを構成する各クラスタに関連付けられたラベルをそれぞれクラスタ記憶部104のテーブルT2から読み出し、読み出した各ラベルを示す情報をヒットコンセプトの組み合わせを示す情報として自装置の外部に出力してもよい。
一方、活性度算出部121が全期間のドキュメントで活性度を算出した場合(ステップS211 YES)、相対力指数算出部122は、j番目のクラスタC_jの相対力指数(RSI)を算出する(ステップS213)。
一方、相対力指数算出部122が、全てのクラスタの相対力指数(RSI)を算出した場合(ステップS214 YES)、抽出装置100は、ステップS216の処理に進む。
101 重要度算出部
102 重要度記憶部
103 クラスタ生成部
104 クラスタ記憶部
110 発見性指数算出部
111 間接関連度算出部
112 意外度算出部
113 積算部
114 ターゲット関連性指数算出部
120 活性化予測部
121 活性度算出部
122 相対力指数算出部(活性度上昇期待値算出部)
130 クラスタ組抽出部
Claims (8)
- 単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部と、
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを反映する発見性指数を算出する発見性指数算出部と、
前記算出された発見性指数に基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出部と、
を備えることを特徴とする抽出装置。 - 前記クラスタ記憶部から前記クラスタ毎に所属度を示す情報を読み出し、該読み出された所属度を示す情報と、自装置の外部から入力されたターゲットの特性を示す情報とに基づいて、前記対象となる2つのクラスタおよび前記第3のクラスタとターゲットとの関連性を示すターゲット関連性指数を算出するターゲット関連性指数算出部を更に備え、
前記クラスタ組抽出部は、前記発見性指数と前記ターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出することを特徴とする請求項1に記載の抽出装置。 - 所定の期間毎に、前記単語を示す情報と該単語の重要度を示す情報とが関連付けられて記憶されている重要度記憶部と、
前記重要度記憶部から所定の期間毎に前記単語の重要度を示す情報を読み出し、前記クラスタ記憶部からクラスタ毎に前記所属度を示す情報を読み出し、該単語の重要度を示す情報と該所属度を示す情報とに基づいて、所定の期間毎に各クラスタの活性化を予測する活性化予測部を更に備え、
前記クラスタ組抽出部は、前記活性化予測部による予測により前記クラスタの組み合わせのうち少なくとも1つのクラスタの活性化が予測された場合、前記発見性指数とターゲット関連性指数とに基づいて、前記クラスタの組み合わせを抽出することを特徴とする請求項2に記載の抽出装置。 - 前記活性化予測部は、
所定の期間毎に、単語が所定のクラスタへ所属している所属度を示す情報と、前記重要度記憶部から読み出された該期間における前記単語の重要度を示す情報とに基づいて、該クラスタの活性度を算出する活性度算出部と、
前記算出された活性度に基づき、各クラスタの活性度の上昇が期待される度合いである活性度上昇期待値を算出する活性度上昇期待値算出部と、
を備え、
前記算出された活性度と、前記算出された活性度上昇期待値とに基づいて、前記クラスタの活性化を予測することを特徴とする請求項3に記載の抽出装置。 - 前記発見性指数算出部は、
前記クラスタ記憶部から前記所属度が所定値以上の単語の位置を示す情報を3つ以上のクラスタ分読み出し、該読み出された単語の位置を示す情報に基づき、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度を算出する間接関連度算出部と、
前記読み出された単語の位置を示す情報に基づき、前記クラスタの組み合わせの意外度を算出する意外度算出部と、
を備え、
前記間接関連度と前記意外度とを乗じることにより、前記発見性指数を算出することを特徴とする請求項1から請求項4のいずれか1項に記載の抽出装置。 - 前記発見性指数は、前記間接関連度と前記意外度が高くなるほど高くなり、
前記クラスタ組抽出部は、前記発見性指数と前記ターゲット指数との重み付き和に基づいて、前記クラスタの組み合わせを抽出することを特徴とする請求項2から請求項5のいずれか1項に記載の抽出装置。 - 単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部を備える抽出装置が実行する抽出方法であって、
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを反映する発見性指数を算出する発見性指数算出手順と、
前記算出された発見性指数に基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出手順と、
を有することを特徴とする抽出方法。 - 単語を示す情報と該単語がクラスタに所属している程度である所属度を示す情報とが関連付けられ、前記単語を示す情報と該単語の位置を示す情報とが関連付けられて記憶されているクラスタ記憶部を備える抽出装置のコンピュータに、
前記クラスタ記憶部から所属度が所定値以上の単語を示す情報に関連付けられている単語の位置の情報を3つ以上のクラスタ分読み出し、該単語の位置の情報に基づいて、対象となる2つのクラスタ以外の第3のクラスタを経由した該2つのクラスタ間の間接関連度と、該2つのクラスタを組み合わせることの意外度とを反映する発見性指数を算出する発見性指数算出ステップと、
前記算出された発見性指数に基づいて、前記クラスタの組み合わせを抽出するクラスタ組抽出ステップと、
を実行させるための抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032415A JP5605730B2 (ja) | 2011-02-17 | 2011-02-17 | 抽出装置、抽出方法および抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011032415A JP5605730B2 (ja) | 2011-02-17 | 2011-02-17 | 抽出装置、抽出方法および抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173800A true JP2012173800A (ja) | 2012-09-10 |
JP5605730B2 JP5605730B2 (ja) | 2014-10-15 |
Family
ID=46976684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011032415A Expired - Fee Related JP5605730B2 (ja) | 2011-02-17 | 2011-02-17 | 抽出装置、抽出方法および抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5605730B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023238288A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 先行関係抽出装置及び先行関係抽出方法並びに先行関係抽出プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07143463A (ja) * | 1993-11-19 | 1995-06-02 | Fujitsu General Ltd | 文字放送番組検索装置 |
WO2008004663A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage |
WO2010026900A1 (ja) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | 関係性発見装置、関係性発見方法および記録媒体 |
JP2010061600A (ja) * | 2008-09-08 | 2010-03-18 | Sony Corp | 推薦装置および方法、プログラム、並びに記録媒体 |
-
2011
- 2011-02-17 JP JP2011032415A patent/JP5605730B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07143463A (ja) * | 1993-11-19 | 1995-06-02 | Fujitsu General Ltd | 文字放送番組検索装置 |
WO2008004663A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif de mise à jour de modèle de langage, procédé de mise à jour de modèle de langage, et programme de mise à jour de modèle de langage |
WO2010026900A1 (ja) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | 関係性発見装置、関係性発見方法および記録媒体 |
JP2010061600A (ja) * | 2008-09-08 | 2010-03-18 | Sony Corp | 推薦装置および方法、プログラム、並びに記録媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200000996013; 入江毅 他: '知的判断メカニズムのための概念間の類似度評価モデル' 情報処理学会研究報告書 Vol.99,No.1, 19990112, p.93-100 * |
CSNG200100907002; 砂山渡 他: '検索語のクラスタリングによるWeb情報の傾向の獲得' 第43回人工知能基礎研究会資料(SIG-FAI-A003) , 20001109, p.7-11 * |
CSNJ200810070099; 中野俊亮 他: 'ユーザ対話による意外性を持つキャッチフレーズ作成支援' 第70回(平成20年)全国大会講演論文集(2) , 20080331, p.2-201〜2-202 * |
JPN6014021161; 入江毅 他: '知的判断メカニズムのための概念間の類似度評価モデル' 情報処理学会研究報告書 Vol.99,No.1, 19990112, p.93-100 * |
JPN6014021163; 中野俊亮 他: 'ユーザ対話による意外性を持つキャッチフレーズ作成支援' 第70回(平成20年)全国大会講演論文集(2) , 20080331, p.2-201〜2-202 * |
JPN6014021165; 砂山渡 他: '検索語のクラスタリングによるWeb情報の傾向の獲得' 第43回人工知能基礎研究会資料(SIG-FAI-A003) , 20001109, p.7-11 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023238288A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 先行関係抽出装置及び先行関係抽出方法並びに先行関係抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5605730B2 (ja) | 2014-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726208B2 (en) | Consumer insights analysis using word embeddings | |
Yin et al. | A temporal context-aware model for user behavior modeling in social media systems | |
Pandey et al. | Spam review detection using spiral cuckoo search clustering method | |
JP2021517295A (ja) | レコメンダシステムのための高効率畳み込みネットワーク | |
Tibshirani et al. | Diagnosis of multiple cancer types by shrunken centroids of gene expression | |
Sun et al. | Online ensemble using adaptive windowing for data streams with concept drift | |
US10558759B1 (en) | Consumer insights analysis using word embeddings | |
EP2747022A1 (en) | Formation and description of user subgroups | |
CN104077279B (zh) | 一种并行社区发现方法和装置 | |
Faivishevsky et al. | Nonparametric information theoretic clustering algorithm | |
US10509863B1 (en) | Consumer insights analysis using word embeddings | |
US10803248B1 (en) | Consumer insights analysis using word embeddings | |
KR20200000789A (ko) | 투자 포트폴리오 구축 방법, 투자 포트폴리오 서비스 제공 방법 및 이를 지원하는 장치 | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
CN109087138A (zh) | 数据处理方法及***、计算机***和可读存储介质 | |
US10289624B2 (en) | Topic and term search analytics | |
CN110314381A (zh) | 任务处理方法及装置、计算机可读介质和电子设备 | |
Perles-Ribes et al. | The typological classification of tourist destinations: The region of Valencia, a case study | |
JP6079270B2 (ja) | 情報提供装置 | |
CN108770002A (zh) | 基站流量分析方法、装置、设备及存储介质 | |
US10685184B1 (en) | Consumer insights analysis using entity and attribute word embeddings | |
JP5605730B2 (ja) | 抽出装置、抽出方法および抽出プログラム | |
Stakhiyevich et al. | An experimental study of building user profiles for movie recommender system | |
US11822609B2 (en) | Prediction of future prominence attributes in data set | |
Chen et al. | Spatially aware feature selection and weighting for object retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140722 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5605730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |