JP5946949B1 - データ分析システム、その制御方法、プログラム、および、記録媒体 - Google Patents

データ分析システム、その制御方法、プログラム、および、記録媒体 Download PDF

Info

Publication number
JP5946949B1
JP5946949B1 JP2015238978A JP2015238978A JP5946949B1 JP 5946949 B1 JP5946949 B1 JP 5946949B1 JP 2015238978 A JP2015238978 A JP 2015238978A JP 2015238978 A JP2015238978 A JP 2015238978A JP 5946949 B1 JP5946949 B1 JP 5946949B1
Authority
JP
Japan
Prior art keywords
data
evaluation
components
learning data
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015238978A
Other languages
English (en)
Other versions
JP2017107302A (ja
Inventor
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2015238978A priority Critical patent/JP5946949B1/ja
Application granted granted Critical
Publication of JP5946949B1 publication Critical patent/JP5946949B1/ja
Publication of JP2017107302A publication Critical patent/JP2017107302A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】膨大なデータの中から、所定事案に関係するデータを的確に見つけ出すことができるデータ分析システムを提供する。【解決手段】データ分析システムは、学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、抽出された複数の構成要素の中から、複数の評価用データの評価に使用される構成要素を、抽出された複数の構成要素の学習用データにおける分布の態様に基づいて選択し、 選択された構成要素に基づいて、評価用データを評価する。【選択図】図4

Description

本発明は、データを分析するデータ分析システム等に関するものであり、例えば、ビックデータを分析する人工知能を備えたシステムに適用可能である。
コンピュータの急速な発展により社会の情報化が進んだ結果、企業・個人の活動に、膨大な量の情報(ビッグデータ)が、広範に、かつ、密接に関係するようになってきている。そのため、最近では、特に、ビッグデータの中から、所望の情報を的確に分別する必要性が重要視されている。
ビッグデータから、所望の情報を取り出すためのアプローチとして、データ群からサンプリングされた一部のデータに対して、レビューワに依るデータ分析を適用し、この分析結果を利用して、残りのデータを自動分析可能なシステムが知られている(例えば、特開2013−182338号公報)。
特開2013―182338号公報
上記データ分析システムによれば、膨大なデータの中から、所定事案に関係するデータを見つけ出すことができる。しかしながら、所定事案に関係する度合いが本来高くないデータであるにも拘わらず、所定事案に関係する度合いが高いデータであると評価されてしまったり、あるいは、その逆のことが生じてしまったりするという課題があった。そこで、本発明は、膨大なデータの中から、所定事案に関係するデータを的確に見つけ出すことができるシステムの提供を目的とする。
前記目的は、データを分析するデータ分析システムであって、分析の対象となる複数の評価用データを少なくとも一時的に記憶するメモリと、前記複数の評価用データを学習用データに基づいて評価するコントローラと、を備え、前記コントローラは、前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、前記抽出された複数の構成要素の中から、前記複数の評価用データの評価に使用される構成要素を、前記抽出された複数の構成要素の前記学習用データにおける分布の態様に基づいて選択し、前記選択された構成要素に基づいて、前記評価用データを評価することによって達成される。さらに、データ分析システムの制御方法、そのプログラム、および、記録媒体が提供される。
既述の開示によって、膨大なデータの中から、所定事案に関係するデータを的確に見つけ出すことができるデータ分析システム等が提供される。
データ分析システムのハードウェア構成の一例を示すブロック図である。 学習用データにおける構成要素の配置を説明する図である。 複数の構成要素夫々の評価値と複数の構成要素夫々の学習用データにおける出現位置との分布を示す特性図である。 第1の実施形態に係る評価用データの評価を説明する、サーバ装置2のコントローラのフローチャートである。 第2の実施形態に係る評価用データの評価を説明する、サーバ装置2のコントローラの動作フローチャートである。 構成要素グループの統合の処理のための制御テーブルである。
次に、添付図面に基づいてデータ分析システムの実施形態を説明する。
〔データ分析システムの構成〕
図1は、本実施の形態に係るデータ分析システム(以下、単に「システム」と略記することがある)のハードウェア構成の一例を示すブロック図である。当該システムは、例えば、データ(デジタルデータおよびアナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスクなど)と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、CPU;Central Processing Unit)とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム(複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)として実現され得る。
本実施の形態において、「学習用データ」(training data)は、例えば、参照データとしてユーザに提示され、分類情報が対応付けられたデータ(分類済みの参照データ、参照データと分類情報との組み合わせ)であってよい。学習用データを、「教師データ」または「トレーニングデータ」といってもよい。また、「評価用データ」(evaluation data)は、当該分類情報が対応付けられていないデータ(参照データとしてユーザに提示されておらず、ユーザにとっては分類されていない未分類のデータ、「未知データ」といってもよい)であってよい。ここで、上記「分類情報」は、参照データを任意に分類するために用いる識別ラベルであってよく、例えば、参照データと所定事案(上記システムがデータとの関連性を評価する対象を広く含み、その範囲は制限されない)とが関係することを示す「Related」ラベルと、両者が関係しないことを示す「Non-Related」ラベルとのように、当該参照データを任意の数(例えば、2つ)のグループに分類する情報であってよい。
図1に例示されるように、上記システムは、例えば、データ分析の主要処理を実行可能なサーバ装置(サーバ計算機)2と、当該データ分析の関連処理を実行可能な一つ又は複数のクライアント装置(クライアント計算機)3と、データおよび当該データに対する評価結果を記録するデータベース4を備えるストレージシステム5と、クライアント装置3およびサーバ装置2に対して、データ分析のための管理機能を提供する管理計算機6とを備えてよい。それぞれの装置は、ハードウェア資源として、例えば、メモリ、コントローラ、バス、入出力インターフェース(例えば、キーボード、ディスプレイなど)、通信インターフェース(所定のネットワークを用いた通信手段によって、各装置を通信可能に接続する)などを備えてよい(これらの例に限定されない)。サーバ装置2は、データ分析に必要なプログラムやデータを記録した(非一時的)記憶媒体、例えば、ハードディスク、フラッシュメモリ、DVD、CD、BD等を備えている。
クライアント装置3は、データの一部を参照データとしてユーザに提示する。これにより、当該ユーザは、クライアント装置3を介して参照データに対する評価・分類のための入力を行う(分類情報を与える)ことができる。サーバ装置2は、参照データと分類情報との組み合わせ(学習用データ)に基づいて、当該データからパターン(例えば、データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない)を学習し、当該学習したパターンに基づいて、評価用データと所定事案との関連性を評価する。
管理計算機6は、クライアント装置3、サーバ装置2、およびストレージシステム5に対して、所定の管理処理を実行する。ストレージシステム5は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース4を備えてよい。サーバ装置2とストシステム5とは、DAS(Direct Attached Storage)方式、またはSAN(Storage Area Network)によって通信可能に接続されている。
なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、上記システムは、他のハードウェア構成によっても実現され得る。例えば、サーバ装置2において実行される処理の一部または全部がクライアント装置3において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置2において実行される構成であってもよいし、ストレージシステム5がサーバ装置2に内蔵される構成であってもよい。また、ユーザは、クライアント装置3を介してサンプルデータに対する評価・分類のための入力を行う(分類情報を与える)だけでなく、サーバ装置2に直接接続された入力機器を介して上記入力を行うこともできる。当該システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の1つの構成(例えば、図1に例示されるような構成)に限定されない。
〔データ評価機能〕
上記システムは、データ評価機能を備えることができる。当該データ評価機能は、人手で分類された少数のデータ(学習用データ)に基づいて、多数の評価用データ(ビッグデータ)を評価するものである。当該データ評価機能を備えることにより、上記システムは、例えば、評価用データと所定事案との関連性の高低を示す指標(例えば、評価用データを序列化可能にする数値(例えば、スコア)、文字(例えば、「高」、「中」、「低」など)、記号(例えば、「◎」、「○」、「△」、「×」など)、および/またはこれらの組み合わせであってよい)を導出することによって、上記評価を行うことができる。データ評価機能は、サーバ装置2のコントローラによって実現される。
上記システムが上記評価のための指標としてスコアを導出する場合、当該システムは、当該スコアを任意の方法で算出することができる。例えば、機械学習または自然言語処理の分野で用いられる各種の手法(例えば、K近傍法、サポートベクターマシンを用いた手法、ニューラルネットワークを用いた手法、データに対して統計モデルを仮定する手法(例えば、ガウス過程を用いた手法など)、および/またはこれらを組み合わせた手法など)に基づいて当該スコアを算出してもよいし、統計学の分野で用いられる各種の手法に基づいて(例えば、構成要素がデータに現れる頻度に基づいて)算出してもよい。
「構成要素」は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、段落、および/またはメタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、および/または音色情報であったり、画像を構成する部分画像、部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報であったりしてよい。
構成要素がデータに現れる頻度に基づいて上記システムが上記スコアを算出する場合、例えば、次のような算出方法が考えられる。まず、上記システムは、学習用データから、当該学習用データを構成する構成要素を抽出し、当該構成要素を評価する。このとき、上記システムは、例えば、学習用データの少なくとも一部を構成する複数の構成要素が、データと分類情報との組み合わせに寄与する度合い(言い換えれば、当該構成要素が分類情報に応じて出現する頻度)をそれぞれ評価する。より具体的な一例として、上記システムは、伝達情報量(例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の式から算出される情報量)を用いて構成要素を評価することによって、当該構成要素の評価情報としての評価値を、下記の数1に従い算出する。
ここで、wgtは、評価前のi番目の構成要素の評価値の初期値を示す。また、wgtは、L回目の評価後のi番目の構成要素の評価値を示す。γはL回目の評価における評価パラメータを意味し、θは評価の際の閾値を意味する。これにより、上記システムは、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。
次に、上記システムは、上記構成要素と評価値とを対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。そして、上記システムは、評価用データから構成要素を抽出し、当該構成要素が上記メモリに格納されているか否かを照会し、格納されている場合は、当該構成要素に対応付けられた評価値を当該メモリから読み出し、当該評価値に基づいて評価用データを評価する。より具体的な一例として、上記システムは、評価用データの少なくとも一部を構成する構成要素に対応付けられた評価値を用いて以下の式を計算することによって、上記スコアを算出することができる。
:i番目の構成要素の出現頻度
wgt:i番目の構成要素の評価値
サーバ装置2は、再現率が所定の目標値になるまで、構成要素の抽出および評価を継続する(繰り返す)ことができるようにしてもよい。再現率とは、所定数のデータに対して発見すべきデータが占める割合(網羅性)を示す指標であり、例えば、全データの30%に対して再現率が80%である場合、所定事案に関係するとして、発見されるべきデータの80%が、指標(スコア)上位30%のデータの中に含まれていることを示す。データ分析システムを用いず、人がデータに総当たり(リニアレビュー)した場合、発見すべきデータの量は人がレビューした量に比例するため、この比例からの乖離が大きいほどシステムのデータ分析性能が良いことになる。
前述したデータ評価機能の実現例は、あくまでも一例に過ぎない。すなわち、当該データ評価機能は、「学習用データに基づいて評価用データを評価する」という機能でありさえすれば、その具体的な態様は特定の1つの構成(例えば、前述したスコアの算出方法)に限定されない。
[構成要素の最適化]
既述のとおり、評価用データの評価には、例えば、学習用データから抽出された構成要素の評価値が用いられる。この場合、評価値が低い構成要素でも、それが数多く評価用データに含まれていると、当該評価用データと所定事案との真の関連性の高さにかかわらず、当該評価用データが高く評価されてしまうことがある。
そこで、本実施形態では、上記システムは、例えば、学習用データから抽出された構成要素の中から、評価用データの評価に使用される構成要素を、当該抽出された構成要素の当該学習用データにおける分布の態様に基づいて選択、決定、あるいは、抽出等して構成要素を最適化し、当該選択した構成要素に基づいて評価用データを評価する。これにより、上記システムは、当該評価用データと所定事案との関連性を正確に判定、決定、分類等できる。選択されなかった構成要素は、その全てが評価用データの評価に使用されないか、あるいは、一部の構成要素が評価用データの評価に使用され、残りの構成要素が使用されないようにしてもよい。サーバ装置2は、例えば、選択された構成要素の評価値をそのまま利用して評価用データを評価する他、選択された構成要素の評価をやり直して、評価用データを評価してもよいし、選択された構成要素の評価値を増加するなどの加工を行って評価用データを評価してもよい。
前述したように、サーバ装置2は、構成要素を選択するために、抽出された複数の構成要素の学習用データにおける分布の態様を利用する。例えば、分布の態様に基づいて、学習用データから抽出された複数の構成要素の中から、所定の位置関係を持って学習用データに存在する複数の構成要素を選択することができる。好適には、複数の構成要素夫々の評価値と複数の構成要素夫々の学習用データにおける出現位置との分布を利用することができる。以下詳しく説明する。
図2は、学習用データの一例を示すものであり、a,b,c等のアルファベット一つ一つが構成要素に相当し、“・”が構成要素として抽出されなかった、助詞、副詞等の語句である。図3は、複数の構成要素夫々の評価値と複数の構成要素夫々の学習用データにおける出現位置との分布を示す。縦軸は構成要素の評価値であり、横軸は構成要素の学習用データにおける出現位置である。棒グラフの一つ一つが構成要素の評価値である。そして、複数の構成要素の評価値に、例えば、ガウシアンフィルターを用いて平滑化処理を行うと符号100に示す特性が得られる。
この特性100によれば、学習用データに含まれる構成要素の優劣(例えば、評価値の高低)を可視化することができる。ピーク(102A〜102I)に位置する構成要素は、データと分類情報との組み合わせを強く特徴付ける要素(例えば、所定事案に対する関連性が高い要素)であることを示している。このとき、当該構成要素(ここでは「特定構成要素」と称する)に対して所定の位置関係を有する他の構成要素(例えば、当該特定構成要素の近傍に位置する構成要素)も、ピークに位置する構成要素(特定構成要素)の影響を受けて(換言すれば、特定構成要素に関連する意味、或いは、意義を有することになって)、所定事案に対する関連性が高くなることがある。
そこで、サーバ装置2は、例えば、学習用データにおける構成要素の出現位置に対する、当該構成要素の評価値の分布において、当該評価値のピークを中心にして構成要素を選択する。例えば、サーバ装置2は、ピークに対応する構成要素とその前後に出現する構成要素とを“構成要素グループ”として選択する。ここで、構成要素グループは、例えば、学習用データにおいて隣接して出現している複数の構成要素を1つのグループとしてまとめたものをいう図3においては、〔〕で囲まれた領域が構成要素グループを示す。例えば、評価用データにおいて、a,b,cが、“a・・b・・c”の順に出現しており、bに評価値のピークがあるとすると、構成要素グループは、“a,b,c”によって定義されてよい(構成要素同士の間にある意味を持たない語句(既述の“・”)を構成要素グループに考慮しなくてよい)。
図3から分かるように、ピークは複数存在することがあるため、構成要素グループは、ピークの数分存在する場合がある。サーバ装置2は、評価用データを評価するために、全ての構成要素グループを利用してもよいし、ピークの評価値の大小等に基づいて一部の構成要素グループを利用してもよい。
サーバ装置2は、例えば、学習用データに含まれる構成要素の中から、構成要素グループに含まれる構成要素を選択し、選択された構成要素に基づいて評価用データを評価する。その際、サーバ装置2は、例えば、評価用データにおいて、構成要素グループを構成する構成要素間での出現位置の差(距離)が少ない場合には多い場合よりも、評価用データの評価値を増加させ、また、複数の構成要素がグループを構成するように評価用データに出現されている場合には、そうでない場合よりも評価用データの評価値を増加させてもよい。
[サーバ装置2による評価用データの評価]
サーバ装置2による評価用データの評価動作を説明する。図4は、サーバ装置2のコントローラのフローチャートである。コントローラは、ストレージシステム5に記録された評価用データの中から一つ又は複数のデータを参照データとして取得する(ステップS300:参照データ取得)。各ステップを、モジュール又は手段と言い換えることもできる。
次に、コントローラは、ユーザが参照データを実際にレビューして分類を決定し、ユーザによって参照データに対して入力された分類情報を、任意の入力装置から取得する(S302:分類情報取得)。コントローラは、参照データと分類情報とを組み合わせることによって学習用データを構成し、学習用データから構成要素を抽出する(S304:構成要素抽出)。
そして、コントローラは、当該構成要素を評価し(S306:構成要素評価)、当該構成要素と評価値とを対応付け、両者をストレージシステム5に格納する(S308:構成要素格納モジュール)。上記S300〜S308の処理は、「学習フェーズ」(人工知能がパターンを学習するフェーズ)に対応する。なお、学習用データを、参照データから作成する代わりに、予め用意しておいてもよい。例えば、ある特許権に係る特許を無効にするための公知文献を見つける場合、学習用データは、特許の請求の範囲の記載と「Related」ラベルとの組み合わせになる。
コントローラは、学習用データから抽出された複数の構成要素について、構成要素の評価値と構成要素の出現位置との分布(図2)を作成し(S310:構成要素分布作成)、さらに、既述したように、分布から構成要素の評価値のピークを判定する(S312:分布処理)。そして、コントローラは、判定されたピークに基づいて、構成要素グループを選択し(S314:構成要素グループ選択)、選択された構成要素グループに属する構成要素とその評価値とをストレージシステム5に記録する。
次に、コントローラは、ストレージシステム5から評価用データを取得する(S316:評価用データ取得)。コントローラは、さらに、ストレージシステム5から構成要素とその評価値とを読み出し、当該構成要素を評価用データから抽出する(S318:構成要素抽出)。コントローラは、当該構成要素に対応付けられた評価値に基づいて評価用データを評価して(S320:評価用データ評価)、複数の評価用データを序列化情報(ランキング)を作成する。上位の評価用データほど所定事案との関連性が高い。S310以降の処理が、学習フェーズに対して、評価フェーズになる。なお、既述のフローチャートに含まれる各処理は、一例であって、限定される態様を示したものでないことに留意すべきである。
以上説明した実施形態によれば、学習用データから抽出された構成要素の中から所定事案に対する関連性がより高い構成要素を選択して評価用データを評価できるため、膨大なデータの中から、所定事案に関係するデータを的確に見つけ出すことができる。
〈第2の実施形態〉
次に、データ分析システムの第2の実施形態を説明する。この実施形態の特徴は、学習用データに含まれる構成要素の評価結果を利用して、学習用データを複数のセグメントに分割し、複数のセグメント夫々を新たな複数の学習用データとして、評価用データの評価に利用することにある。例えば、学習用データから抽出された構成要素の当該学習用データにおける分布の態様に基づいて、学習用データの構成要素を所定のパターンに分割することにより、学習用データを複数のセグメントに分割することができる。さらに、具体的には、学習用データから選択された複数の構成要素グループを所定事案との関連性に基づいて統合することにより、学習用データに複数のセグメントを設定することができる。
第2の実施形態に係るデータ分析システムの動作を、サーバ装置2のコントローラの動作フローチャート(図5)に基づいて説明する。コントローラが構成要素グループを選択するまでの処理(S300〜S314)は第1の実施形態と同じである。コントローラは、S400において、互いに関連する構成要素グループを統合させて統合グループを作成する(構成要素グループ統合)。構成要素グループの統合を具体的に説明する。
構成要素グループ同士が、構成要素にはならない語句(既述の“・”)を介することなく並んでいるか、少数の当該語句を介して並んでいるか、又は、構成要素グループの最後の構成要素と構成要素グループの最初の構成要素が同じ用語等、互いに関連する構成要素グループである場合、複数の構成要素のグループ同士の意味、意義等が互いに関連していることが期待されるため、複数の構成要素グループを統合させて統合グループとする。サーバ装置2は、複数の構成要素グループの統合の過程を図6の制御テーブルに格納し、メモリの所定領域に記録する。
図6において、グループ番号(1)〜(5)までの構成要素グループの夫々は単独の構成要素グループが“統合グループ”に相当し、グループ番号(6)、(7)の構成要素グループは統合されて統合グループ#6になり、以下、図6に示すとおりである。図6において、構成要素グループ評価値とは、構成要素グループに属する複数の構成要素の評価値の代表値としての最大値であり、統合グループ評価値とは、統合グループに属する構成要素グループの評価値の代表値としての最大値である。
構成要素グループを統合しても、それだけでは、統合グループの数(#1〜#11)はまだ多い可能性があるため、コントローラは、統合グループをさらに統合する(S402:統合グループ統合)。コントローラは、統合グループの最大値の分布から、統合グループの最大値のピーク(図6で“*”で区別されている最大値)を求め、ピーク毎に統合グループを統合したセグメントを設定する(セグメント設定)。図6は、学習用データに3つのセグメント1,2,3が設定されることを示している。したがって、図2に示すように、コントローラは、学習用データをI(セグメント1)、II(セグメント2)、III(セグメント3)の3つに分割することができる。
コントローラは、評価用データの評価(S404(S316〜S320))に移行すると、制御テーブル(図6)を参照して、前記3つのセグメントに基づいて、評価用データを評価する。学習用データデータの数が増えることに依って、既述の再現率を向上させることができる。コントローラは、評価用データを評価する際、複数のトレーニング夫々の構成要素とその評価値とを利用してもよいし、学習用データ毎に新たに構成要素を抽出しその評価値を求めて利用してもよい。
〔データ分析システムが処理するデータ形式〕
本実施の形態において、「データ」は、コンピュータによって処理可能となる形式で表現された任意のデータであってよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む(これらの例に限定されない)。
例えば、文書データを分析する場合、上記システムは、学習用データとしての文書データに含まれる形態素を構成要素として抽出し、当該構成要素をそれぞれ評価し、評価用データとしての文書データから抽出した構成要素に基づいて、当該文書データと所定事案との関連性を評価することができる。また、音声データを分析する場合、上記システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法(例えば、隠れマルコフモデル、カルマンフィルタなど)を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いて音声を認識し、認識後のデータ(文書データ)に対して、前述した手順と同様の手順で分析できる。また、画像データを分析する場合、上記システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該画像データを分析できる。さらに、映像データを分析する場合、上記システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該映像データを分析できる。
〔ソフトウェア・ハードウェアによる実現例〕
上記システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
〔アプリケーション例〕
上記システムは、例えば、ディスカバリー支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
1……データ分析システム、2……サーバ装置、3……クライアント装置、4……データベース、5……ストレージシステム、6……管理計算機

Claims (10)

  1. データを分析するデータ分析システムであって、
    分析の対象となる複数の評価用データを少なくとも一時的に記憶するメモリと、
    前記複数の評価用データを学習用データに基づいて評価するコントローラと、
    を備え、
    前記コントローラは、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記抽出された複数の構成要素夫々の評価情報と、当該複数の構成要素夫々が前記学習用データにおいて出現する位置との関係から、当該複数の構成要素の前記学習用データにおける分布の態様を求め、
    前記複数の構成要素の中から、前記複数の評価用データの評価に使用される構成要素を、前記分布の態様に基づいて選択し、
    前記選択された構成要素に基づいて、前記評価用データを評価する
    データ分析システム。
  2. 前記コントローラは、
    ユーザに提示された参照データと、当該ユーザによって当該参照データに設定された分類情報の組み合わせとを前記学習用データとし、
    前記複数の構成要素夫々の前記組み合わせに寄与する度合いに基づいて、当該複数の構成要素夫々の評価情報を生成し、
    前記生成された評価情報に基づいて評価用データを序列化するための指標を生成することにより、前記評価用データを評価する
    請求項1記載のデータ分析システム。
  3. 前記コントローラは、
    前記分布の態様に基づいて、前記学習用データから抽出された複数の構成要素の中から、所定の位置関係を持って前記学習用データに存在する複数の構成要素を、前記複数の評価用データの評価に使用される構成要素として選択する
    請求項1又は2記載のデータ分析システム。
  4. 前記コントローラは、
    前記分布の態様に基づいて前記学習用データから抽出された複数の構成要素の評価情報の少なくとも一つのピークを求め、
    当該ピークに基づいて前記複数の構成要素の中から前記複数の評価用データの評価に使用される構成要素を選択する
    請求項記載のデータ分析システム。
  5. 前記コントローラは、
    前記ピークの位置に対応する構成要素、及び、前記学習用データの当該構成要素の近傍に位置する他の構成要素と、を含む構成要素グループを決定し、
    当該構成要素グループに属する複数の構成要素を前記複数の評価用データの評価に使用される構成要素として選択される
    請求項記載のデータ分析システム。
  6. 前記コントローラは、
    前記分布の態様に基づいて前記学習用データを複数のセグメントに分割し、
    前記分割された複数のセグメントを新たな複数の学習用データとし、
    前記新たな複数の学習用データに基づいて前記複数の評価用データを評価する、
    請求項1からのいずれか一項記載のデータ分析システム。
  7. 前記コントローラは、
    前記分布の態様に基づいて前記選択される複数の構成要素を複数のグループに分類し、
    当該複数のグループを統合する過程で、前記複数のセグメントを決定する、
    請求項記載のデータ分析システム。
  8. 複数の評価用データを学習用データに基づいて評価するデータ分析システムの制御方法であって、
    前記データ分析システムが、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するステップと、
    前記抽出された複数の構成要素夫々の評価情報と、当該複数の構成要素夫々が前記学習用データにおいて出現する位置との関係から、当該複数の構成要素の前記学習用データにおける分布の態様を求めるステップと、
    前記複数の構成要素の中から、前記複数の評価用データの評価に使用される構成要素を、前記分布の態様に基づいて選択するステップと、
    前記選択された構成要素に基づいて、前記評価用データを評価するステップと、
    を実行する制御方法。
  9. 複数の評価用データを学習用データに基づいて評価するデータ分析をコンピュータに実行させるプログラムであって、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するステップと、
    前記抽出された複数の構成要素夫々の評価情報と、当該複数の構成要素夫々が前記学習用データにおいて出現する位置との関係から、当該複数の構成要素の前記学習用データにおける分布の態様を求めるステップと、
    前記複数の構成要素の中から、前記複数の評価用データの評価に使用される構成要素を、前記分布の態様に基づいて選択するステップと、
    前記選択された構成要素に基づいて、前記評価用データを評価するステップと、
    をコンピュータに実行させるためのプログラム。
  10. 請求項記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2015238978A 2015-12-07 2015-12-07 データ分析システム、その制御方法、プログラム、および、記録媒体 Active JP5946949B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015238978A JP5946949B1 (ja) 2015-12-07 2015-12-07 データ分析システム、その制御方法、プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015238978A JP5946949B1 (ja) 2015-12-07 2015-12-07 データ分析システム、その制御方法、プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP5946949B1 true JP5946949B1 (ja) 2016-07-06
JP2017107302A JP2017107302A (ja) 2017-06-15

Family

ID=56329452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015238978A Active JP5946949B1 (ja) 2015-12-07 2015-12-07 データ分析システム、その制御方法、プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP5946949B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023068859A (ja) * 2021-11-04 2023-05-18 株式会社日立製作所 計算機システム及び装置条件の探索支援方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182338A (ja) * 2012-02-29 2013-09-12 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182338A (ja) * 2012-02-29 2013-09-12 Ubic:Kk 文書分別システム及び文書分別方法並びに文書分別プログラム

Also Published As

Publication number Publication date
JP2017107302A (ja) 2017-06-15

Similar Documents

Publication Publication Date Title
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US10685183B1 (en) Consumer insights analysis using word embeddings
JP5885875B1 (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
EP3279804A1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
US10803248B1 (en) Consumer insights analysis using word embeddings
US20230336532A1 (en) Privacy Preserving Document Analysis
US10489427B2 (en) Document classification system, document classification method, and document classification program
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
US10685184B1 (en) Consumer insights analysis using entity and attribute word embeddings
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
JP5946949B1 (ja) データ分析システム、その制御方法、プログラム、および、記録媒体
Heidari et al. Financial footnote analysis: developing a text mining approach
US11817089B2 (en) Generating aspects from attributes identified in digital video audio tracks
JP6509391B1 (ja) 計算機システム
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN112182020A (zh) 金融行为识别与分类的方法、装置及计算机可读存储介质
Congleton et al. Tracing Political Positioning of Dutch Newspapers
CN112115705B (zh) 一种电子简历的筛选方法及装置
WO2023014237A1 (ru) Способ и система извлечения именованных сущностей
Tseng et al. BIV-Priv-Seg: Locating Private Content in Images Taken by People With Visual Impairments
EA043239B1 (ru) Способ и система извлечения именованных сущностей
CN116306624A (zh) 客诉文本分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160601

R150 Certificate of patent or registration of utility model

Ref document number: 5946949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250