JP5043735B2 - 情報分類システム、情報処理装置、情報分類方法およびプログラム - Google Patents

情報分類システム、情報処理装置、情報分類方法およびプログラム Download PDF

Info

Publication number
JP5043735B2
JP5043735B2 JP2008087611A JP2008087611A JP5043735B2 JP 5043735 B2 JP5043735 B2 JP 5043735B2 JP 2008087611 A JP2008087611 A JP 2008087611A JP 2008087611 A JP2008087611 A JP 2008087611A JP 5043735 B2 JP5043735 B2 JP 5043735B2
Authority
JP
Japan
Prior art keywords
classification
information
word
binary condition
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008087611A
Other languages
English (en)
Other versions
JP2009244950A (ja
Inventor
大佑 丸山
岳彦 石井
和夫 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008087611A priority Critical patent/JP5043735B2/ja
Priority to US12/342,300 priority patent/US8260731B2/en
Publication of JP2009244950A publication Critical patent/JP2009244950A/ja
Priority to US13/437,082 priority patent/US9245012B2/en
Application granted granted Critical
Publication of JP5043735B2 publication Critical patent/JP5043735B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報分類技術に関し、より詳細には、情報分類する専門家の知識を利用して進化する知識ベースを含む情報分類システム、情報処理装置、情報分類方法およびプログラムに関する。
情報処理技術の発展に伴い、現在、種々の情報が分類されてデータベースに蓄積され、種々の用途に利用されている。データベースに登録される情報は、多様であり、また情報が含むテキストなどの言語解析単独でその分類が不都合無く決定できるものもある。一方で、情報分類を行う際に、単独の言語を使用した言語分析によっては、自動的な分類が困難な場合もある。
そのような情報としては、例えば、サービスと商品との境界が明確ではない商品情報、サービス情報、経理上の勘定科目仕分け情報、技術情報などを挙げることができ、特に特定の付属属性、例えば、地域、期間、消費/行為場所、目的、方法に強く依存する情報を挙げることができる。情報分類は、パーソナル・コンピュータやサーバ・コンピュータといった情報処理装置による自動分類も可能となってきているが、自動分類が適切ではない場合、従来では、分類情報についての専門知識を有するいわゆる専門家による情報分類の修正が行われる。専門家による情報分類の修正は、当該専門家が分類情報を検査し、自己が保有するノウハウを反映させて自動分類の設定を修正することにより、適正な分類コードなどを付与することにより行われている。
ところで、専門家が頭の中に蓄積しているノウハウは、頭の中に蓄積されたままであり、そのようなノウハウを情報処理装置に反映させるためには、専門家から直接ノウハウを反映させた分類データベースを予め作成する必要がある。また、その反映のさせ方についても、従来では、専門家から聴取して知識ベースに反映させる場合や、専門家による修正の度ごとにメモ書きなどで残しておき、後に一括してノウハウを反映させることにより知識ベースに反映させることによって行われている。
上述した方法によっても専門家の知識を必要とする分類データベースを作成できる。しかしながら、専門家が必ずしもノウハウ情報を網羅的に反映させることができるということはできない。例えば、分類された情報に対して付されるコード付け専門家は、多くの場合自動分類システムの詳細を知悉しておらず、検証し、修正したコード付け、およびその際のノウハウが、専門家の頭の中に留まりやすく、分類された情報を使用して他の作業を行う他部門の担当者に充分に伝わらないという問題もある。
また、当該他部門の担当者がバッチ処理などでコード付けを行い、その結果を自動符号付けシステムにフィードバックさせることもできる。しかしながら、当該他部門の担当者も自動分類システムのデータ構造を知悉していることは期待できず、また知識ベースの管理するデータ構造体も種類が多いので、ノウハウをどの知識ベースに反映させたらよいかを判断するのに手間を要し、またミスを生じさせがちであった。
これまで、入力されたキーワードの情報を検索以外の他の処理のために利用する技術は例えば、特許第3526198号明細書(特許文献1)では、入力されたキーワードに類似するキーワードでデータベースを検索するデータベース検索方法が開示されている。特許文献1では、利用者から入力される検索キーワードに対応する第1の概念と第1の概念に類似する第2の概念と、第1の概念毎に類似性評価値を付与して評価事例記憶手段に蓄積してゆくことで、類似キーワード検索を行うデータベース検索技術を開示している。
また、特開2006−343925号公報(特許文献2)では、質問応答システムにおいてユーザの質問事項から重要語として抽出されたキーワードに基づいて検索された回答候補およびその適正情報を関連語辞書修正手段に入力し、関連語辞書の修正処理を実行することで、キーワードと回答との関連度を上昇させる処理などを実行する、関連語辞書作成技術が開示されている。
特許第3526198号明細書 特開2006−343925号公報
上述したように、従来技術は、キーワードから類似キーワードを取得して検索を行う点、およびキーワードと対象とされる情報との間の関連性を登録する点を開示する。しかしながら、特許文献1および特許文献2は、いずれも単独のキーワードを使用して情報検索を実行する技術を開示するのみであり、キーワード単独を情報分類のために使用するのではなく、入力された複数のキーワードの意味の関連性を判断条件として使用して、情報分類に反映させるものではない。
また、特許文献1および特許文献2では、キーワードと対象となる類似キーワードを関連付け、また回答などの情報を関連づけることは可能とする。しかしながら、特許文献1および特許文献2は、キーワードに対する上位概念を含めて情報を分類したり、複数キーワードで成立する意味関係を利用して分類検索および分類分けをすることを解決課題とするものではない。
すなわち、情報分類に対して言語解析技術を適用し、単独の単語に一致だけを利用した情報分類ではなく、情報分類のために、有意義な言語の連続(語列)による意味属性を加味して自動的な情報分類を行うことにより、分類対象とされた情報の分野に広範囲対応することが可能となるものと考えられる。
また、複数のキーワードにより与えられる意味属性を使用した情報分類処理において、専門家の分類するべき情報により即したノウハウを抽出して、知識ベースへの追加や修正に使用することで、さらに専門家のノウハウを適切に反映させた高精度の情報分類が可能となるものと考えられる。
さらに、分類情報を複数のキーワードを有する短センテンスの語列で記述し、語列から抽出した複数のキーワードの機能に基づき情報分類におけるマッチング処理での機能を相違させることにより、さらに多様な分類処理が可能となることが期待できる。
本発明は、上記従来技術の問題点に鑑みてなされたものであり、本発明は、専門家が保有するノウハウを適切に抽出し、言語の連続による意味属性を使用して多様な情報の自動分類を可能とし、さらには専門家によるノウハウを進化的に適用して情報分類を可能とする、情報分類システム、情報処理装置、情報分類方法およびプログラムを提供することを目的とする。
さらに本発明は、分類処理の分類対象語や関連語として使用されない付属属性についても知識ベースで決定木の2値条件として管理させることにより、分類処理のデータとして含ませることが可能となり、より広範な種類の情報について詳細な分類が可能となる。また、この結果、従来の自動分類システムでは、後述するマッチング処理において部分一致としてしか扱われなかった分類情報であっても、分類対象語や関連語の登録に対応して完全一致として処理することで、適正分類率を向上させる、情報分類システム、情報処理装置、情報分類方法およびプログラムを提供することを目的とする。
本発明では、上記従来技術の課題を解決するために、分類情報を複数のキーワードで記述する。複数のキーワードは、キーワードを連結または修飾するための助詞、前置詞、その他によって複数のキーワードが一定の言語における意味(semantics)を与えるような短センテンスを構成する語列として記述される。
キーワードは、形態素解析などを使用して言語解析され、キーワード単位で分類対象である分類情報が、分類対象語と、分類対象語を意味的に修飾する関連語とに分類される。また、分類に使用するキーワードは、分類の直接的な目的とされる分類対象語を登録する主分類テーブルと、分類対象語の自動分類に影響を与える関連語を関連する意味属性ごとに登録した補助分類テーブルとに分解して登録される。また、意味属性は、例えば地域、季節、期間、技術特徴などの多様な付属属性とともに2値条件としても使用され、複数のキーワードに対して異なる機能を付与することで、多種類の分類情報に対する柔軟でかつ高精度の分類処理を可能とする。
分類情報は、言語解析の結果を使用して、知識ベースに対してのキーワード検索および2値条件判断および重み付けが実行され、分類情報に割当てるための分類識別値候補を決定する。決定された分類識別値候補は、分類確認を行うためのユーザ・インタフェース(UI)に表示され、情報処理装置のデスクトップ画面上に表示される。2値条件は、分類対象を修飾する関連語または付属条件から選択され、これらの値が分類対象語に対応付けて、判断結果とともに2値条件テーブルに登録される。2値条件判断が特定の分類対象語に対して登録されている場合、2値条件判断の結果が、優先的に分類識別値を与える結果として使用される。
分類識別値候補の提示では、UI上に情報処理装置が分類情報に対して自動分類の結果割当てた分類識別値、そのために利用した2値条件値、分類情報を記述する付帯的な情報を提供する付属情報などが、修正可能に表示される。
分類識別値候補の分類識別値、2値条件値などが追加または修正されている場合、処理履歴を記録したログデータを解析して修正先のデータ構造体を特定し、さらに修正先アドレスを特定する。情報処理装置は、特定された修正先アドレスを使用して知識ベースの対応するデータ構造体の値を受領した修正値で置換し、知識ベースが含む、単語辞書データベース、補助分類テーブル、2値条件テーブル、重み付けテーブルなどに反映されるように登録項目が修正される。
その後に入力された分類情報を記述する複数のキーワードが入力された場合、情報分類システムは、分類情報の言語解析および言語要素分類に基づく分類結果を利用して分類情報に対して適正な分類識別値が割当てられる。
すなわち、本発明によれば、専門家が保有するノウハウを適切に抽出し、言語の連続による意味属性を使用して適正な情報分類を可能とし、さらには専門家によるノウハウを進化的に取込んだ情報分類を可能とする、情報分類システム、情報処理装置、情報分類方法およびプログラムを提供することができる。
以下、本発明を実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本実施形態の情報分類システム100の実施形態を示す。情報分類システム100は、複数のクライアント・コンピュータ(以下、クライアントとして参照する。)102と、クライアント102からの分類情報とともに分類情報に関連する各種の情報を含む付属情報を受領し、分類情報に対して分類識別値を割当てるサーバ・コンピュータ(以下、単にサーバとして参照する。)104とを含んでいる。また、サーバ104は、サーバ104が管理する現在知識ベースを使用した分類結果をクライアントに返し、分類結果の妥当性をユーザに判断させる。また、情報分類システム100は、分類情報読取り装置110を含んで構成することができる。図1に示した分類情報読取り装置110は、クライアント102に接続され、クライアント102が取得した分類情報を、ネットワーク108を介してサーバ104に送付する構成とされている。なお、分類情報読み取り装置110は、サーバ104またはサーバ104がローカルに管理する情報処理装置に接続されていてもよい。分類情報読取り装置110は、分類情報を、OCR、バーコード、またはQRコードなどを使用して取得し、クライアント102を介してサーバ104に送信する。また、他の実施形態では、ローカルに接続された情報処理装置が分類情報を取得してサーバ104に送付することができる。その他、サーバ104が直接分類情報読取り装置110を接続していて、直接的に分類情報を取得することもできる。
クライアント102と、サーバ104とは、ネットワーク108を介して相互接続されている。また、クライアント102と、サーバ104との間は、ネットワーク108を介して、TCP/IPなどのトランザクション・プロトコルを使用し、RMI(Remote Method Invocation)、RPC(Remote Procedure Call)、EJB(Enterprise
Java(登録商標) Beans)、CORBA(Common Object Resource Broker Architecture)などの分散コンピューティング環境として構成することができる。また、クライアント102とサーバ104の間のトランザクションは、HTTPプロトコルを使用して、クライアント102側に、Internet
Explorer(商標)、Mozilla、Opera、Netscape Navigator(商標)などのウェブ・ブラウザ、サーバ104側にCGI(Common
Gateway Interface)、サーブレット、データベース・アプリケーションなどのサーバ・プログラムを実装させたウェブ・サーバ構成することができる。
クライアント102は、パーソナル・コンピュータまたはワークステーションなど、これまで知られた、いかなるシングルコア・プロセッサまたはマルチコア・プロセッサを含んでいてもよい。また、クライアント102は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MAC OS(登録商標)など、いかなるオペレーティング・システムを実装していてもよい。
一方、サーバ104は、PENTIUM(登録商標)、POWERPC(登録商標)CISCアーキテクチャまたはRISCアーキテクチャで、シングルコアまたはマルチコアとして構成されたマイクロプロセッサを搭載する。さらにサーバ104は、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御され、クライアント102からの分類要求を処理し、クライアント102に処理結果を返すことができる限り、分散コンピューティングのプロキシ・サーバとして実装することもできるし、ウェブ・サーバとして実装することができる。
また、ネットワーク108に接続された、クライアント102のユーザとしては、一般ユーザおよび専門家ユーザが存在していてもよい。一般ユーザは、クライアント102から分類情報をサーバ104に送付する。サーバ104は、所定数の分類情報を例えばジョブキューに格納し、専門家ユーザが操作するクライアント102からの分類実行要求を受領して、一括して複数の分類情報の分類を実行することができる。なお、さらに他の実施形態では、ネットワーク108に接続されるクライアント102は、全数専門家ユーザにより操作され、それぞれ専門家ごとに異なる分野の分類情報の処理をサーバ104に対して依頼することができる。また、SNS(Social Network Service)などでネット分類サービスを行う場合、ユーザは、ネットワーク108に接続したSNS加入者とされていてもよい。
サーバ104は、分類情報に対して分類識別値を割当てるため、ハードディスク装置などに各種のデータ構造体を格納し、また読出して情報分類を実行するための知識ベース106を含んでいる。分類識別値は、分類情報をユーザに認識しやすくするための分類語および当該分類語に対応する数値データ、分類コード値などから構成される分類値として構成される。なお、分類識別値のデータ構成は、特定の用途に応じて適宜選択することができる。
以下、分類語および分類値を区別して参照することが必要な場合を除き、分類語および分類値を総じて単に分類識別値として参照する。知識ベース106は、サーバ104が実行時、RAMなどにアプリケーションを展開することにより情報処理装置上に実現される各種機能手段によりアクセスされ、各種情報を提供し、また各種情報が登録される。知識ベース106が管理するデータ構造体としては、単語辞書データベース、分類データベース、およびログデータを挙げることができる。
図2は、本実施形態のサーバ104の機能ブロック構成200を示した図である。サーバ104は、ネットワーク108を介してクライアント102からの分類要求を、対応する分類情報、または分類情報および付属情報とともに受領する。分類要求および分類情報は、ネットワーク・アダプタ210を介してサーバ104のサーブレットやCGIなどに渡され、その後、各種機能ブロックが呼出されてそれぞれの処理を実行する
サーバ104は、分類情報からキーワードを取得するための言語解析部220と、言語要素分類部230とを備えている。言語解析部220は、分離要求を受領すると、単語辞書データベース260を使用して分類情報をキーワード解析し、例えば「キーワード1」+「助詞」+「キーワード2」のように識別する。なお、日本語では、キーワード間に助詞を割当てるが、英語その他の言語では、前置詞、冠詞、空白語など、キーワードの前後で一定の意味を生じさせる語を割当てることができる。また、言語解析部220は、キーワードが、例えば「レーズンバターパン」の場合など単語辞書データベース260を参照してさらに複数のサブキーワードに分類できる場合には、サブキーワードも取得して分類のために利用する。
この目的のため、単語辞書データベース260は、言語解析を行うための辞書データを登録し、キーワードを解析するための形態素辞書、助詞辞書、文法辞書などを含んで構成される。また、単語辞書データベースは、下記データ構造体を含んで構成することができる。
(1)表現揺れテーブル=キーワードの表記揺れに対応するデータ構造体:
(2)上下概念テーブル=キーワード一部分などが異なる場合に、上下概念も含ませて分類分けを行うデータ構造体:
さらに、単語辞書データベース260は、ユーザが更新してその登録内容を進化させて行くユーザ辞書および初期設定時の内容を保持するシステム辞書とを含んで構成されており、専門家ユーザまたは分野別に、異なるユーザ辞書を提供することが可能とされている。言語解析部220は、生成されたキーワード、サブキーワード、助詞、などの値を、言語要素分類部230に通知する。
言語要素分類部230は、受領した言語解析の結果を使用して、言語解析の結果取得したキーワードが分類対象を規定しているか、または分類対象を修飾しているかに応じて分類データベース270に対して異なる処理を要求する。異なる処理には、意味属性と、分類対象語に対して異なるデータ構造体を検索させ、意味属性については、検索された結果を使用して2値条件判断を実行させる。また、分類対象語については、分類対象語に対応する、分類識別値を検索する処理を含むことができる。
言語要素分類部230は、分類情報に対して割当てるべき最適な分類識別値を割当てるため、分類データベース270の主分類テーブル、補助分類テーブル、2値条件テーブル、重み条件テーブル、出現頻度テーブルを使用して分類処理を実行する。言語要素分類部230は、分類処理が完了した後、分類候補抽出部240に通知を行い、言語要素抽出部230が割当てた分類識別値の候補を抽出する。言語要素抽出部230による言語要素分類処理は、分類情報=「A店で寿司」につき、以下のように適用される。
Figure 0005043735
上記表1中、「A店」、「寿司」が言語解析部220が取得したキーワードであ
り、「で」は、助詞である。表1に示した実施形態では、「A店」、「寿司」には、表記揺れテーブルや上下概念テーブルが適用されて言語解析が適用されることで、関連語「A店」に対応付けられ、関連語の目的、種類、方法など、分類対象語を修飾する意味属性を与える「レストラン」が補助分類テーブルから検索されて割当てられている。また、日本語語順と助詞の種類で被修飾関係となることで識別される分類対象語である「寿司」は、「調理品」が、主分類テーブルから検索されて割当てられている。
なお、情報分類処理では、特定の分野や助詞の種類により、分類情報が提供する意味が異なる場合もあることを考慮しなければならない。例えば、キーワード「寿司」に対して「A店」が寿司屋や調理品の提供をその意味として保有する場合などには、「調理品」が適切ではない場合もある。このため、言語要素分類部230は、言語解析部220が取得したキーワードを使用して分類データベース270を参照し、言語要素に対応した分類判断処理を実行する。
以下、本実施形態では、サーバ104が提供する各機能のうち、言語解析部220、言語要素分類部230、ログ管理部280、単語辞書データベース260、分類データベース270、ログデータ290を、専門家のノウハウを反映させた情報分類を可能とする意味で、知識ベース106として参照する。
一方、分類データベース270は、分類情報に対して割当てるべき分類識別値を登録する。分類データベース270は、さらに詳細には、下記のデータ構造体を含んで構成することができる。
(3)主分類テーブル=分類名と符号をもつ分類体系を割当てるためのデータ構造体:
(4)補助分類テーブル=分類名に分類できない関連語で同義語などを割当てるデータ構造体:
(5)2値条件テーブル=キーワードの内容に対応して分類を変更させて、個別的な分類分けに対応するデータ構造体:
(6)重み条件テーブル=複数の分類識別値候補が見出されたとき、自動分類結果として選択する優先度を規定するスコア値を計算するための重み条件を登録するデータ構造体:
(7)出現頻度テーブル=スコア値を計算するため、キーワードの属性に対応して出現する期待度を登録するデータ構造体。
なお、上述した各種のデータ構造は、データベースとして構成することもできるし、また、C++、Java(登録商標)、PERL、RUBYなどのオブジェクト指向ブログラミング言語などにより作成されたテーブルまたはリストとして構成することができる。なお、データベースは、DB2などのリレーショナル・データベースでもよいし、OODB(Object Oriented Database)とされていてもよい。また、各種検索は、リレーショナル・データベースの場合、SQL(Structured
Query Language)を使用して実行することができるし、また特定のOODBなどに利用される検索コマンドを設定することで実行することができる。
分類候補抽出部240は、分類識別値候補が割当てられたことが通知されると、分類情報と、言語要素分類部230が割当てた分類識別値から重み付け値などを使用して分類候補を抽出する。さらに分類抽出部240は、分類候補を抽出するために使用した2値条件、重み付け条件などの値を取得して分類更新部250に通知する。
分類更新部250は、説明している実施形態では、分類確認を促すためのGUIを、例えばフォームの形式で送信し、クライアント102のデスクトップ画面上に分類確認GUIを表示させる。クライアント102のデスクトップ上で、分類確認GUIを認識したユーザは、その専門家のノウハウを使用してフォーム上に形成されたフィールド内の値を検査し、修正するべき場合には修正して、その結果をネットワーク108を介してサーバ104に送付し、サーブレットやCGI処理などを介して分類更新部250にユーザの修正結果を渡す。なお、図2では、分類更新部250は、破線で示されている。この理由は、分類更新部250は、専門家のノウハウの学習後、自動実行時には分類更新部250が呼出されずとも適正な自動分類が実行されるためである。
分類更新部250は、修正の有無を、例えば、ウェブ・キャッシュなどに登録されている送信値と比較して判断する。分類更新部250は、当該修正を分類情報に対する分類識別値として設定し、適切な記憶領域に格納する。格納された修正値は、分類更新処理で知識ベース106を更新するために利用される。
分類更新部250は、修正があると判断した場合、修正に関連する各データ構造体を、ログデータ290を参照して特定し、修正の内容を分類データベース270に通知して、対応するデータ構造体の更新処理を実行する。また、新たなキーワードが追加された場合、分類更新部250は、言語解析部220および分類データベース270に通知を行い、新規なキーワードおよびそのための2値条件、重み付け値などを取得して単語辞書データベース260、分類データベース270のエントリ項目を更新する。
情報分類システム100は、上述した各データ構造体および機能ブロックを使用することにより、単語辞書データベース260、分類データベース270に対し、専門家のノウハウを自動反映させ、進化的に分類精度を向上させ、知識ベースとしての価値を高めて行くことができる。なお、上述したハードウェア構成は、サーバ104をウェブ・サーバとして構成し、クライアント102でブラウザ・ソフトウェアを実装するHTTPプロトコルベースでのトランザクションを実行するものとして説明した。
他の実施形態では、他の分散コンピューティング基盤を使用し、専用クライアント・プログラム、サーバ・プログラムをそれぞれ実装させ、ウィンドウ・クラス、ウィンドウ・メソッドなどを使用してC++、Java(登録商標)などにより分類確認GUIを提供する、クライアント−サーバ・システムとして実装することができることは言うまでもない。
また、図2に示したログ管理部280は、特定の分類要求を、トランザクション単位で管理し、分類情報の受領から、言語解析、言語用語分類、分類候補抽出、分類更新の各処理の処理履歴を登録する。さらに、ログ管理部280は、分類更新部250からの問合わせに対応して分類修正を行うため、修正するべきデータ構造体、レコード識別値、フィールド識別値などといった修正先アドレスなどの情報を、分類更新部250に通知し、知識ベース106の専門家ノウハウを反映させた更新処理を可能とさせている。
図3は、本実施形態の処理シーケンスの概略図およびスコア付けおよびログ管理部280が作成するログデータ290の実施形態を示す。図3に示した情報分類処理のシーケンスは、分類要求および分類情報を受領して開始される。分類要求を受領すると、分類要求を構成するテキスト・データが言語解析部220に送られ、テキスト・データに対して単語処理312が適用され、形態素解析が実行される。この際、単語辞書データベースとしては、システム辞書と、ユーザが更新したユーザ辞書とを適用し、現時点で最適な言語要素の単位に分割する。またこの際、表現揺れテーブル、上下概念テーブルなどを使用して関連語へのマッチング性を向上させている。
生成された単語要素は、言語要素分類部230に送られ、分類識別値との間のマッチング処理314を介して分類処理が実行される。マッチング処理314では、分類データベース270を参照しながら、単語要素が登録されている関連語を検索する処理が実行される。この場合、単語処理で与えられた表現揺れや上下概念を示す単語についても併せて検索語とされる。検索結果に対して、その後、2値条件を使用したルール処理316が当該検索語について登録されているか否かを検査し、2値条件が見出された場合には、2値条件を使用したルール処理316が実行される。
本実施形態での2値条件を使用したルールとは、分類情報が、例えば{キーワード1}+{助詞}+{キーワード2}となった場合、キーワード1の2値判断により、キーワード2の分類結果を決定するルールである。より具体的には、分類情報が、「沖縄のかまぼこ」の場合、キーワード1=沖縄に対しては、付属属性として登録された世帯票の県名が抽出され、2値条件「県@世帯票」として設定されているものとする。
このとき、分類情報「沖縄のかまぼこ」については、まずキーワード=かまぼこについて登録されている2値条件が検索される。分類対象語に対して2値条件が設定されている場合、2値条件がヒットした場合には、2値条件テーブルで設定された結果が自動分類結果として優先して選択される。説明する実施形態では、キーワード=かまぼこについては、キーワード=沖縄について2値条件が設定されているので、2値条件=沖縄がtrueの値を返し、この結果、キーワード=かまぼこについて、2値条件=県@世帯票:沖縄に対応して登録された自動分類結果が返される。この場合、従来の2値条件判断では、仮に、品目名=「かまぼこ」の分類情報の入力がなされただけでは沖縄で普通に流通している「揚げかまぼこ」を指定する分類識別値を割当てることができず、入力者が別に個別的な情報を参照して2値条件設定などにより2値条件=県@世帯票:沖縄を設定することが必要となり分類情報として短センテンスを利用することによる自動分類ではない。なお、専門家のノウハウによれば、分類情報=「沖縄のかまぼこ」と、分類情報=「沖縄でかまぼこ」は、等価な分類識別値を割当てるべき分類情報として判断される。このため、サーバ104は、説明する本実施形態では、助詞=「の」、助詞=「で」が検出された場合、等価的な処理を実行する。
ルール処理316で、ヒットした分類識別値が複数ある場合、分類値をスコア付けするためのスコア処理318を適用する。本実施形態でのスコア処理318は、言語解析部220、言語要素分類部230により、分類情報の完全一致の場合と、部分一致の場合とで異なる重み付け処理を適用する。以下これらの重み付け処理について説明する。
<完全一致の場合の重み付け処理>
分類情報が、現在構成の知識ベース106を使用して完全にマッチングした場合、分類識別値候補について適用される重み付け処理は、ログデータ290の解析により選択確率を計算し、計算された選択確率を重み付け値として分類識別値候補に対して割当てることにより重み付け処理が適用される。この理由は、分類情報を構成するキーワードが、表現揺れおよび上下概念を考慮して完全一致している場合には、現在構成の知識ベース106で統計的に見て充分な精度の分類が期待できるためである。
<部分一致の場合の重み付け処理>
部分一致しか得られなかった場合には、サーバ104は、分類識別値の相関性をスコア値として使用して、抽出された分類識別値の重み付け処理を実行する。この目的で分類識別値候補の優先度をスコア化する出現頻度テーブル340を含んで構成されている。
この出現頻度テーブル340には、店舗種類やサービス名などを登録する補助分類に関連してユーザまたは一般消費者が当該各分類値に対応する行為をする期待値が、分類識別値全体について登録されている。出現頻度テーブル340は、補助分類全部に対して補助分類=レストランで示されるのと、期待値の値が異なるだけで同様のデータ構成を有しており、全分類識別値について、補助分類との関連性を提供する。
ところで、本実施形態では、分類情報が部分一致する場合であって、複数の分類識別値候補が存在するときには、サーバ104が保有していないデータに関連して重み付けを行うことが必要となる状況に該当する。この場合、サーバ104は、主分類テーブルまたは補助分類テーブルの項目ごとに部分一致したキーワードの相関係数を計算し、部分一致したキーワードが最も強く相関すると考えられる相関係数の高い値を選択し、重み付けのために利用する。
部分一致の場合の重み付け処理は、特定の実施形態では、下記式(1)を使用して、特定の分類値が、他の分類値よりも分類情報に相関性を有することに基づいて計算される。
Figure 0005043735
式(1)では、最も可能性が高いと考えられる分類は、式(1)の「重み付け候補の分類構成」と、「ある分類の他の分類との関係」との相関係数の計算において、全ての分類の「ある分類の他の分類との関係」を順に当てはめて計算した結果得た相関係数のうち、相関係数が最大値を得る「ある分類」のことを意味する。より詳細には、分類情報を使用して検索された複数の分類値の期待値のデータ列をxとし、出現頻度テーブル340の全分類語に対する検索された複数の分類の期待値のデータ列をyとし、これらの相加平均を使用して相関係数を計算し、最大の相関性を与える分類語、または一定のしきい値を超える相関性を有する分類識別値を分類候補として登録する処理によって、スコア付けが実行される。このスコア付けは、分類情報についてサーバ104が部分一致しか生成できず、分類するための情報が不足している状況下で抽出された分類識別値が複数ある場合に、例えば、キーワード=レストラン、キーワード=スーパーマーケット、キーワード=沖縄、キーワード=ぶどう、キーワード=ロールなどとの関係でどの分類識別値を最適候補とするか、を決定することを可能とする。
サーバ104は、概略的には上述した処理を使用して、分類情報について分類識別値を割当て、自動分類処理を実行する。一方、サーバ104による自動分類処理では、現在設定の分類データベース270では、分類情報の分類の多様性、例えば地域的特性、期間的特性、専門性などに対応できず、情報分類の専門家ユーザからすれば、異なる分類識別値を割当てるべきと判断され、修正すべき場合も発生する。
本実施形態では、この目的のため、UI320を提供し、専門家といったユーザからの修正を受領して、分類データベース270の各分類データを修正および更新する、フィードバック処理310を実行する。更新する場合には、更新・修正するべき分類データ、そのレコード、フィールド、修正値などを、ログ管理部280に問合わせ、ログデータ290に登録されたデータを使用して参照する。図3を参照すると、ログデータ290として登録される登録データ350が例示されている。登録データ350には、単語処理の単語区切り、複合語、品詞情報などの言語解析の履歴、マッチング処理における完全一致、部分一致、未一致への区分けの履歴、2値条件判断結果などのルール処理、スコア処理におけるルール結果、スコア処理の履歴などのデータが含まれている。本実施形態では、登録データ350を使用して、知識ベースの更新先を決定し、知識ベース106を進化的に更新する。
図4は、分類データベース270が含むデータ構造体400の実施形態を示す。図4に示すように、分類データベース270は、主分類テーブル410、補助分類テーブル420および2値条件テーブル430を含んで構成される。主分類テーブル410は、分類情報の対象と、当該対象を識別する分類語、分類値とをそれぞれ対応付けするためのデータ構造体である。主分類テーブル410登録するフィールド412、414を含む分類識別値に対して当該分類識別値により分類される商品の品目名、サービスのサービス名、専門技術の技術用語などの分類対象語を登録するフィールド416を含んで構成することができる。また、図4に示した実施形態では、分類語412は、商品として食品の分類を実行する実施形態として、食品の品目名である生鮮野菜、調理品、食事代、冷凍食品が登録されている。
また、分類値414としては、その分類値が分類コードAAA〜DDDとして登録され、分類識別値とされている。なお、分類対象とされる分類情報には特に制限はなく、例えば、人参、トマト、寿司、ステーキ、ハンバーグなどの商品、旅行、フィットネス、飲食、アミューズメントなどのサービス、技術項目などを分類可能な情報である限り、いかなる情報でも対象とすることができる。また分類値414は、数値コード、勘定科目コード、IPC(International Patent Classification)などの数値/キャラクタ複合コードなど特に限定されるものではない。なお、「分類可能な情報」とは、特定の実施形態において分類されるべき対象とされることを意味する。すなわち、「分類可能な情報」は、特定の実施形態では分類される対象となるが、他の実施形態では、分類される対象ではなく、補助分類として設定される場合も存在する。すなわち、上述した「分類可能な情報」は、特定の目的において、分類の対象となる情報と、分類の対象ではなく、補助分類に分類される情報とが互いに排他的なカテゴリを形成している。
補助分類テーブル420は、商品、サービス、勘定科目、技術特徴などのカテゴリといった意味属性ごとに、それぞれ分類されるべきキーワードを関連語として登録するデータ構造体である。補助分類テーブル420は、分類情報のキーワードと、分類対象を取扱う店舗、サービス、技術特徴などの意味属性とを対応付けする機能を有する。補助分類テーブル420の構成を説明すると、補助分類テーブル420は、店舗、サービスなどの補助分類を登録するフィールド422と、当該分類対象を取扱う店舗、サービス、または技術種類などのキーワードを登録するフィールド424とを含んで構成されている。
図4に示した実施形態では、レストランは、提供サービスの意味づけを示し、関連語としてA店、...、E店などが登録されていて、A店、...、E店などは、それぞれ分類情報を構成するキーワードとして識別される値または2値条件として設定される値とされる。同様に、スーパーマーケット、コンビニエンスストア、旅行、飲食、フィットネスなどの提供サービスのカテゴリごとについて、キーワード、すなわち関連語とされる値が、それぞれ対応付けて登録される。
さらに図4に示すように、分類データベース270は、2値条件を登録する2値条件テーブル430も含んでいる。図4に示す実施形態では、2値条件テーブル430は、2値条件を適用するべき「かまぼこ」といった商品の品目名を登録するフィールド432と、当該品目名に適用するべき「世帯票@県:沖縄」といった2値条件を登録するフィールド434と、当該2値条件を満たした場合の結果値を登録するフィールド436とを含んでいる。分類情報が「沖縄で(の)かまぼこ」とされている場合、2値条件である「沖縄」が真であり、品目名についても「かまぼこ」が真を返すので、2値条件判断の結果が優先され、例えば主分類テーブル410の検索を実行せずに、自動分類結果としてフィールド436に登録された「揚げかまぼこ」が選択される。
そして、サーバ104は、選択された「揚げかまぼこ」を主分類テーブル410の分類対象語として含むレコードを検索し、「揚げかまぼこ」を登録するレコードの分類語および分類値を、分類情報「沖縄でかまぼこ」についての分類識別値として決定する。なお、分類対象語として商品の品目名を使用する場合の分類語および分類値については、例えば、総務省統計局の下記URI、http://www.stat.go.jp/data/kakei/koumoku/bunrui.htmで指定される、それぞれ家計簿用の分類表に登録された値を採用することができる。なお、総務省統計局の下記URI、http://www.stat.go.jp/data/kakei/koumoku/bunrui.htmで指定される分類語および分類名を採用した場合、「沖縄で(の)かまぼこ」の分類情報について、分類名=揚げかまぼこ、分類値=203が与えられることになる。
一方で、図4に示した2値条件テーブル430に、県@世帯票:沖縄の2値条件が設定されていない場合や、分類情報が、「東京でかまぼこ」など、2値条件がfalseの値を返す場合などでは、逆に主分類テーブル410の検索結果がそのまま自動分類結果として返され、「かまぼこ」に対応する分類名=かまぼこ、分類値=205が与えられることになる。
専門家から見れば、分類情報=「沖縄で(の)かまぼこ」に対して分類値=205を割当てる自動分類結果は、地域的な観点から妥当ではないと判断される。しかしながら、サーバ104による自動分類処理に際して、2値条件テーブル430に対応する2値条件が登録されていない場合、分類値=203の「揚げかまぼこ」が分類されるためには、分類情報として「揚げかまぼこ」が直接入力された場合のみである。一方、分類情報=「沖縄で(の)かまぼこ」が入力されたとしても専門家ユーザのノウハウを2値条件に反映させない限り、分類値=203は付されない。
また、例えば、分類情報=「B店でハンバーグ」が入力された場合でも、「B店」が補助分類テーブル420の関連語として登録されない限り、分類情報=「B店でハンバーグ」は、補助分類が未分類となって、正確な自動分類結果を提供することにはならない。
本実施形態では、上述したように、専門家ユーザによる適正な情報分類を与えることができるように、専門家ユーザのノウハウを使用して知識ベースを進化的に更新することで、分類精度を向上させる情報分類システム100を提供するものである。このため、情報分類システム100は、サーバ104が自動的に割当てた分類識別値を表示する分類確認GUIを、専門家ユーザが操作するクライアント102のデスクトップ画面上に表示させ、「沖縄でかまぼこ」の分類情報について分類語=「かまぼこ」、分類値=205の割当ての妥当性を判断させる。
サーバ104の自動分類結果が、専門家のノウハウからみて適正でない場合、情報分類システム100は、専門家ユーザによる分類確認GUIから適正な分類情報の入力を促す。専門家ユーザが適正な分類情報を入力すると、当該入力値を受領したサーバ104は、修正するべきデータ構造体を、ログデータ290を検索して判断し、知識ベースに反映させる。
図5は、サーバ104が実行する分類識別値決定処理の実施形態についてのフローチャートである。処理は、ステップS500で分類情報を取得し、各種分類テーブルを使用したマッチング処理を開始する。ステップS501で分類情報が含むキーワードの一致を、表現揺れおよび上下概念を含めて単語辞書データベースを使用する言語解析部220により実行する。その後、言語解析部220の結果が言語要素分類部230に渡され、分類情報と図4に示した主分類テーブル410および補助分類テーブル420のマッチングを判断する。ステップS501で分類情報が含むキーワードが一致した場合(yes)、さらにステップS502で、一致の内容を判断し、一致が完全一致か、部分一致かを判断する。
ステップS502の判断で完全一致と判断された場合(yes)、ステップS503で候補の分類識別値が複数抽出されたか否かを判断する。分類識別値が複数抽出される場合(yes)は、ステップS505で図4の2値条件テーブル430を参照して2値条件処理を実行する。ステップS506では、2値条件に一致したか否かを判断し、2値条件に一致した場合(yes)、ステップS507でさらに2値条件が一致した分類識別値候補が2つ以上抽出されたか否かを判断する。ステップS507の判断で分類識別値候補が2つ以上見出された場合(yes)、ステップS508で、完全一致の場合の重み条件処理を適用して分類識別値候補をスコア付けし、適切な記憶領域にスコア値とともに登録する。
その後、分類候補抽出部240がステップS509でスコア値の最も高い分類識別値を、分類識別値提示候補として決定し、抽出する。この理由は、複数候補が同スコア値を持つ可能性も存在するため、抽出される分類識別値は1つとは限らないためである。その後、情報分類システム100は、ポイントAから、分類候補の確認を行う分類確認処理に処理を進める。
一方、ステップS501で、分類情報が含むキーワードについて、表現揺れ、上下概念を含めた言語解析によって一致する項目が見出されなかった場合(no)処理をステップS509に分岐させ、分類識別値未定として、ポイントAから分類確認処理に分岐させる。また、ステップS502で、完全一致ではないと判断された場合(no)、ステップS510で一致した分類識別値が複数あるか否かを判断する。ステップS510で一致した分類識別値が複数あると判断された場合(yes)、ステップS508に処理を進め、部分一致の場合の重み条件処理を適用して重み付け処理を実行し、ステップS509で分類識別値を決定し、ポイントAから分類確認処理に処理を分岐させる。
また、ステップS503で候補の分類識別値が複数あるか否かの判断で候補の分類値が単一に絞られた場合(no)、ステップS504で2値条件処理を実行し、分類情報に含まれるキーワードの2値条件判断の結果をもってステップS509で分類識別値を決定し、ポイントAから分類確認処理に処理を分岐させる。さらにステップS506で2値条件に一致するものが見出されなかった場合(no)、処理をステップS508に進め、完全一致の場合であって2つ以上2値条件が一致したときと同一の処理を実行する。
その後、ステップS509で分類候補抽出部240が、選択された単一の分類識別値または複数の分類識別値候補の中から分類識別値候補を例えば降順に3候補選択するなどして分類識別値を決定し、ポイントAからの分類確認処理に分岐させる。ステップS507で2値条件が一致した分類候補が無く、一義に分類識別値が抽出された場合(no)、処理をステップS509に分岐させ、当該分類識別値に決定し、ポイントAから分類確認処理に分岐させる。
以上の分類識別値決定処理により、分類情報に関連して分類識別値が未決定、部分一致または完全一致を含め、一義的に決定された場合、重付け処理により決定された場合について、分類処理を実行する。
図6は、図5で説明した分類識別値決定の決定処理600をグラフィカルに説明した図である。図6に示されるように、例えば「ハンバーグ」といった商品610は、図4の主分類テーブル410を参照すると、分類語として、冷凍食品620、食事代630、調理品640といった複数の分類語レコードに登録された分類対象語とされている。このため、商品「ハンバーグ」について、それだけが分類情報として入力された場合、類語として、冷凍食品620、食事代630、調理品640が分類候補として抽出されてしまうことになり、情報分類システム100としては、分類精度が充分ではない。また、このレベルの分類精度では、専門家のノウハウを導入することが妥当な程度の分類精度を与えることはできず、知識ベースの知識内容の更新レベルも低いままとなる。
本実施形態では、上述したように分類情報を、単語単位ではなく短センテンスまで拡張することにより、分類処理に対して意味を導入することが可能となり、著しく分類精度を向上させることができる。この結果、本実施形態では、専門家レベルでのノウハウ登録を可能とする程度の分類精度を提供することが可能となる。これを図6を使用して詳細に説明する。図6で説明する実施形態は、分類情報として「ハンバーグ」が単独で入力された場合、図4の主分類テーブル410を使用した自動分類では、冷凍食品DDD、食事代CCC、調理品BBBが与えられる以上自動分類は進行しない。したがってさらに何らかの条件が加えられないかぎり、専門家ユーザが自動分類の結果を検査したとしても、これ以上のノウハウを引き出すことはできないか、引き出すことができたとしても、より低レベルのノウハウしか誘導できないことになる。
図6で説明する実施形態では、分類情報を「A店でハンバーグ」として入力することにより、さらに高度な専門家ノウハウを誘導的に抽出し、知識ベースの高度な進化的更新が可能とする。すなわち、本実施形態の情報分類システム100は、「A店でハンバーグ」という分類情報を受領すると、「A店」+「で」+「ハンバーグ」に言語解析を行う。ここで、本実施形態では、補助分類テーブル410を参照して「A店」がレストランのレコードに登録された関連語であると決定された場合、補助分類テーブル420に登録された関連語「レストラン」と助詞「で」、および「調理品」を2値条件として、その結果を「食事代」として専門家に設定させるように、専門家ユーザのノウハウを引き出すことが可能となる。設定された2値条件を使用した判断処理の結果がtrueを返すので、2値条件判断の結果が分類対象語の検索処理に優先して抽出され、分類情報である「A店でハンバーグ」について分類語=「食事代」、分類値=CCCとして割当てることが可能となる。
なお、当該2値条件は、専門家ユーザによる分類確認を経て修正・設定されることで、以後の情報分類について、「A店でハンバーグ」について、優先的に「食事代」、「CCC」の分類識別値が設定される。以上、説明の便宜上「ハンバーグ」という一般的な品目名を例示的に使用して説明したが、より専門的な分類情報についても短センテンスで分類情報を入力することにより飛躍的に分類精度を向上でき、さらに専門家のノウハウ抽出を誘導しやすくなる。
図7は、分類候補抽出部250が抽出した分類候補に関して、図5のポイントAから処理を渡される分類更新部210が実行する分類確認処理の実施形態のフローチャートを示す。分類更新部250は、HTML、XMLといった構造化文書、Java(登録商標)Scriptなどを使用して分類確認用のフォームを作成し、当該フォームに抽出した分類候補の各値を記入する。情報分類システム100は、ステップS700で作成したフォームをクライアント102に送付して、クライアント102のデスクトップ画面上に分類確認GUIを生成させる。なお、クライアント−サーバ・システムを使用した分散コンピューティング環境では、専用クライアント・プログラム、サーバ・プログラムを使用して同様の処理を実行することができる。以下、説明の便宜上、サーバ104がウェブ・サーバとして実装されるものとして説明を行う。
ステップS701では、分類更新部250は、クライアント102が送付する分類確認の結果を判断して、分類識別値に修正がない状態で、フォームを介してデータを受領したか否かを判断する。分類識別値および分類条件に修正が無い状態でフォームが返信された場合、具体的にはユーザが分類識別値が正しいと判断した場合(yes)には、分類更新部250は、分類候補抽出部250に対して現在抽出されている分類識別値を正当な値として通知して、当該分類識別値を、以後の処理のために利用させ、処理をステップS702で終了させる。
一方、ステップS701で、分類識別値および分類条件に修正された状態で修正値が返信され、分類識別値が正当ではないと判断された場合(no)には、処理をステップS703に分岐させ、分類候補抽出部240に対し、送信された正解分類識別値の設定を依頼し、抽出された分類候補識別値を更新しログデータとして登録する。その後、ステップS704で、分類更新部250は、ユーザが入力した分類識別値、2値条件、補助分類などのデータを、フォームを介して受領し、ログデータ290に登録する。その後、ステップS705で、変更に関連するデータ構造体の対応するフィールドの値を取得し、分類候補抽出部250に通知し、取得した分類識別値の値で現在の単語、分類対象語、関連語などの登録を確認し、その処理を、ログデータ290に記述する。
これらの処理を終了した段階で、分類更新部250は、ポイントBから知識ベースの単語辞書データベース260、分類データベース270に通知を発行し、ログデータを使用して知識ベースの更新処理に処理を分岐させる。分類識別値、関連語および2値条件の修正などに使用するために、ログ管理部280は、分類識別値の修正および2値条件の参考値の修正について、修正先が判断できるように、分類値決定処理における決定処理の判断履歴、修正前の各値、および修正後の各値を登録してログデータを生成する。
図8は、本実施形態で、分類更新部250がクライアント102に表示させる分類確認GUI800の実施形態である。図8に示した分類更新GUI800は、サーバ104がウェブ・サーバとして構成される場合には、フォームとしてクライアント102に送信され、クライアント102からは、GETメソッドまたはPOSTメソッドを使用して修正データがサーバ104に送信される。また、CORBAなどの分散コンピューティング環境を使用する場合には、C++、Java(登録商標)などのウィンドウ・クラスやウィンドウ・メソッドなどを使用して専用クライアント・プログラムを実装したクライアント102に表示させ、修正データをサーバに送付させる。
分類確認GUI800は、クライアント102が送信した分類情報または分類情報読取り装置110が取得した分類情報を表示するフィールド810と、サーバ104が実行した自動分類処理の結果を表示するフィールド820と、自動分類にて使用した参考情報を表示するフィールド830とを含んでいる。図8の分類確認GUI800を認識したユーザは、分類情報が「A店でハンバーグ」であり、付属属性として、価格、個数、単位、地域などの情報が登録されていることを確認する。サーバ104は、フィールド810に表示された各値を使用して情報分類処理を実行し、その結果生成された自動分類結果を、フィールド820に表示させている。図8に示されるように、現在設定の知識ベース106で与えられる分類識別値は、「食事代(CCC)」である。また、フィールド830には、自動分類のために使用した参考情報が表示される。
フィールド830に表示される参考情報としては、情報分類処理で抽出された、分類情報に関連する分類、関連語、分類対象語などが、自動分類でのスコア値の順や分類識別値の登録順などを使用して表示されている。なおフィールド830には、A店を言語解析することにより取得された補助分類テーブルの420から取得された補助分類名である「レストラン」、「ハンバーグ」が2値条件として適用された結果、食事代(CCC)が推測された分類識別値であり、自動分類結果として表示されている。
一方、分類確認GUI800の下側の領域には、専門家ユーザが分類情報「A店でハンバーグ」に対して自動分類結果が妥当ではないと判断した場合に、正しい分類識別値を与えるためのGUIが、図示した実施形態ではプルダウンメニュー840、850として提供されている。プルダウンメニュー840は、分類識別値を修正するためのものである。自動分類結果を修正する権限を有しているユーザ、例えば専門家ユーザは、フィールド820の自動分類結果が専門家のノウハウから修正を必要とする場合に、プルダウンメニュー840のカーソル・バーを操作して、より適正な分類識別値を登録する。
また、プルダウンメニュー850は、「A店」に対して新たな補助分類を登録し、また「ハンバーグ」などの商品、サービスなどが登録されていない場合に新に登録するためのGUIである。「A店」や分類対象語が知識ベースに登録されていない場合、自動分類結果には、「未分類」などの表示がなされる。ユーザは、プルダウンメニュー850から適正な意味属性の値および分類対象語を設定することができる。自動分類結果が妥当な場合や、分類識別値の修正、関連語についての意味属性、および分類対象語に対する適正な値を登録した後、ユーザは、確認ボタン860をクリックして、確認内容をサーバ104に送付する。また、ユーザがその他の2値条件を修正する必要があると判断した場合には、図8の2値条件修正ボタン870をクリックし、さらに2値条件の詳細な修正を実行してもよい。
図9は、図8でユーザが2値条件を修正する必要があると判断し、2値条件修正ボタン870をクリックした場合に表示される、分類確認GUIの他の実施形態である。ユーザが分類情報の適正な分留のため、新たな2値条件を追加する必要があると判断した場合、2値条件設定GUI900が表示される。2値条件設定GUI900は、特定の実施形態で、分類情報が、食品に関連する「京都でおやき」の場合について説明する。フィールド910は、自動分類に使用した分類情報を表示するフィールドである。説明の目的で、品目名として、「おやき」が入力され、付属属性の地域属性が「京都」であり、その単位が「丁」である場合について説明する。
分類対象語が「おやき」である場合、自動分類では、現在設定の知識ベース106では、小麦粉などを使用して作られる一般的な「おやき」に分類される結果、フィールド920で、分類語=その他の食品、分類値=FFFに分類される。一方、専門家によれば、地域属性が「京都」であり、分類対象語である品目名が「おやき」である場合、単位が「丁」であることから、小麦粉などを使用した一般的な「おやき」ではなく、豆腐料理を購入していると判断される。
この場合、ユーザは、2値条件設定GUI900を表示させ、正しい分類を入力する。修正内容は、フィールド930で品目名=豆腐を設定し、フィールド940で2値条件として参考するべき付属属性を設定する。その後、ユーザは、OKボタン950を入力することにより、修正内容をサーバ104に送付させ、知識ベース106の更新を可能とする。以後、品目名=豆腐であり、付属情報に、「丁」、「京都」が含まれる場合、分類識別値は、分類語=豆腐が与えられ、分類値=GGGが与えられることとなり、専門家のノウハウを反映させた分類結果が与えられる。
サーバ104では、送付された各値を、送信値と比較し、送付された各値が送信値と相違している値または条件などを検出すると、ログデータを検査して変更された値に対応するデータ構造体および修正先アドレスを取得して、ユーザによる修正を知識ベースに反映させる。このため、分類処理の履歴に対応して、専門家ユーザから取得するべき情報が異なり、さらに修正先も異なる。専門家ユーザからのノウハウを効率的に抽出し、かつ適切なデータ構造体にそのノウハウを反映させるための、サーバ104は、自動分類ポリシーを使用して、取得するべき情報と、修正先とを管理する。
図10は、サーバ104が、ログデータ290を参照して自動分類を実行し、修正を知識ベース106に反映させて行く自動分類ポリシー1000を、テーブルとして示す。なお、図10の自動分類ポリシー1000は、自動分類の結果をクライアント102に表示する場合に、修正を促すべき値の入力フィールドを含むフォームなどを指定するために利用される。
図10では、自動分類ポリシー1000を、説明の便宜上テーブル形式で示すが、本実施形態のサーバ104は、図10に示した自動分類ポリシー1000を、ルックアップ・テーブルとして登録しておくこともできるし、情報分類における分類更新処理のプログラム内にプログラム・コードとして記述することができ、その実装形式には特に限定はない。なお、自動分類ポリシー1000を、ルックアップ・テーブル形式で登録することで、条件変更や判断条件の追加などに対し、主処理プログラムの修正を行うことなく対応できる。
図10に示す自動分類ポリシー1000には、複数のフィールドが登録されている。以下、各フィールドのエントリ項目について説明する。
(a)フィールド1010には、言語処理に関する条件が登録されている。フィールド1010は、分類情報が含むキーワードが、単語辞書データベース260の形態素解析などで解析できたか否かに応じて、以後の処理のポリシーを規定するための条件がフラグなどとして登録される。
(b)フィールド1020は、マッチング処理における条件を登録する。フィールド1020は、データ構造体400でのマッチング状況を、関連語、分類対象語についてその表記揺れを含めて登録し、修正項目を判断するために利用される。
(c)フィールド1030は、マッチング処理におけるマッチングパターンを登録する。具体的には、フィールド1030には、マッチングが完全一致であっても、候補分類が単一の場合と、複数候補が抽出されるような場合が想定される。フィールド1030は、マッチングパターンに応じて、異なる修正処理を実行させることに対応するものである。
(d)フィールド1040は、2値条件設定などのルール処理の条件を登録する。ルール処理としては、2値条件の有無または2値条件判断で偽(false)の結果が返された場合および2値条件の判断が真(true)の値を返した場合について、異なる修正処理を実行させることに対応する。
(e)フィールド1050は、スコア処理の修正を必要とする可能性を設定するフィールドであり、スコア処理に適用する重み付けの修正などが必要となる場合に対応する。なお、フィールド1050のnullフィールドは、重み付けを考慮しなくともよい場合である。
(f)フィールド1060は、ユーザ、特に専門家ユーザのノウハウを反映させることについての必要性を登録するフィールドである。フィールド1060は、ユーザによる設定値の変更を可能とするデータ項目を、フラグなどとして設定し、対応するフォームなどを選択させる。なお、言語解析がまったく不成功の場合、それ以上のユーザのノウハウを取込むことは、その時点で妥当ではないので、フィールド1060では、専門家のノウハウとは関連しない知識ベース106自体のデータ拡張という点で、専門家ユーザではなくとも分類情報の入力者による入力を行うことも可能である。また、この場合でも専門家ユーザによるノウハウを反映した入力を可能とすることができる。
(g)フィールド1070は、正解率優先か格付率優先かによって分類結果として抽出するべき分類識別値を修正する修正入力フィールドを含む分類確認GUI800を選択するためのデータを登録するフィールドである。例えば、言語解析において表記揺れを含めて完全一致の結果が得られている場合、キーワードの分類または2値条件の正確度によって与えられる正解率を優先することを示す。また、優先自動分類ポリシーで、「格」として示されている場合、キーワードが部分一致を与えた場合に、相関係数を使用する分類対象語の格付度を優先することを示す。
(h)フィールド1080には、フィールド1010〜1070に登録された項目に対応して修正を反映させるための知識ベースの修正先が登録されている。分類確認GUI800には、このフィールド1080に登録された修正先に対応する入力値を受領するための入力フィールドが形成され、クライアント102を介して対応する入力データの受領を可能とする。なお、分類情報の入力は、上述した分類情報読取り装置110を使用して行うこともでき、特定の入力形式に限定されるものではない。
図11は、図7のポイントBを経て処理が開始される、分類更新処理のフローチャートの実施形態を示す。分類更新処理は、ステップS1100において、ログデータを参照してユーザによる補助分類条件の入力があったか否かを判断する。補助分類条件の修正がない場合(no)、処理をステップS1103に分岐させる。一方、ステップS1100で補助分類条件の修正入力があったと判断された場合(yes)、ステップS1101で修正後の補助分類条件を使用して、補助分類テーブルの該当する修正先アドレスの値を修正し、ユーザ入力をフィードバックする。その後、ステップS1102では、修正した補助分類項目に対応する2値条件テーブル430を修正し、処理をステップS1109に分岐させる。
ステップS1100で補助分類条件の修正入力がないと判断された場合(no)、ステップS1103では、ログデータ290を参照して2値条件処理が行われたか否かを判断し、2値条件処理が行われた場合(yes)、ステップS1104でユーザが2値条件の修正入力を行ったか否かを判断する。ステップS1104で2値条件の修正入力が行われた場合(yes)ステップS1105で2値条件テーブル430の対応する修正先アドレスを取得して修正を行い、ユーザによる修正値でフィードバックを行ない、ステップS1106で、重み条件処理を行ったか否かの判断を実行する。また、ステップS1104で2値条件入力が行われなかった場合(no)およびステップS1103で2値条件の入力が行われなかった場合(no)、ステップS1106の重み条件処理を行ったか否かを判断する。
ステップS1106では、ログデータ290を参照して自動分類処理で重み条件処理を行ったか否かを判断し、重み条件処理を行った場合(yes)、ステップS1107で分類候補が修正されず、分類候補に正解があったか否かを判断する。ステップS1107で分類候補に正解があった場合(yes)、ステップS1108で対応する重み条件の修正先アドレスを参照してユーザ入力による重み条件で重み条件にフィードバックする。ステップS1109では、単語、分類対象語、関連語登録を行うか否かを判断する。また、ステップS1106およびステップS1107の判断で、いずれも否定的な結果が返された場合(no)、処理をステップS1109に分岐させ、関連語登録判断を実行する。ステップS1109で、単語、分類対象語、関連語などの登録を行う場合(yes)、ステップS1110で、単語を、単語辞書、分類対象語を主分類テーブル、関連語を補助分類テーブルにそれぞれ登録し、処理をステップS1111で終了させる。また、ステップS1109で関連語を登録しないと判断した場合(no)、単語、分類対象語、関連語などを登録しないまま、処理をステップS1110で終了させる。
図11に示した分類更新処理の実施形態は、ログデータ290を参照しながらクライアント102から送付される修正値を効率的に補助分類テーブル420および2値条件テーブル430の修正に反映させることを可能とする。なお、図11に示した分類更新処理の手順は、関連語の他、新たな分類対象語が入力された場合に、新たな分類対象語で知識ベースを更新するためにも適用することができる。
図12を使用し、分類データベース270が含む分類テーブル400の修正反映処理1200の実施形態を、データ構造体レベルで説明する。情報分類システム100の分類データベース270には、現在、品目名=かまぼこについて、付属属性を含む現在分類状態1210で示された値が登録されている。現在分類状態1210は、付属情報として取扱われる世帯情報および分類語に関連するデータである分類項目が登録されている。
分類情報が、「沖縄でかまぼこ」として与えられる場合、現在分類状態1210を使用した自動分類結果は、他の条件に依存することなく、分類名=かまぼこ、分類値=「HHH」の分類結果を与えるデフォルト設定とされている。専門家ユーザがそのノウハウを使用して分類値を、「HHH」から「HHI」に修正し、サーバ104が当該修正を受領したものとする。
2値条件修正を受領したサーバ104は、新たに2値条件とするべき指定値を受領して、分類テーブル1220のフィールドのうち、「地域」フィールドに登録された「沖縄」の値を取得して2値条件テーブル430の新たなフィールドに登録し、2値条件を生成する。同時に、結果フィールドの自動分類結果の値を、修正に対応して現在設定の「HHH」から「HHI」へとユーザが設定した値に設定する。修正可能項目は、特に限定されるものではなく、現在設定状態1220の全フィールドを対象として設定することもできるし、図12に示すように、分類情報の特性に応じて指定された付属属性のみを修正可能として設定しておくことができる。なお、専門家ユーザによる同一の修正が設定された回数N行われたことを検知して、条件設定変更に反映させる処理を用いてもよい。
一方、現在分類状況1230には、同一の商品等の品目名に関連して、地域、世帯人員、収入などのデータが異なるデータが登録されている。なお、現在分類状態1230は、自動分類結果として、「HHH」を与えることが適正である。この場合、サーバ104は、現在分類状態1210と、現在分類状態1230との登録項目の比較修正を、分類確認GUI800を使用して行うことができる。例えば、分類テーブル1240には、商品等の名称=「かまぼこ」を規定する条件が異なるレコードが登録されている。情報分類システム100は、2値条件修正GUI900に、参考条件状況1240として分類テーブル400に登録されている同一品目名のエントリ項目を抽出し、分類確認GUI800に併せて表示させることもできる。
この場合、2値条件修正GUI900上で参考情報として提示する参考条件状況1240には、図12に示すように、同一の品目名について値が相違するフィールド、例えばフィールド1250の「世帯種別」、フィールド1260の「収入」およびフィールド1270の「価格」について修正候補としてマークアップ表示させ、ユーザによる修正を促すこともできる。これらの修正項目は、サーバ104に送付された後、それぞれの項目に対応する修正が反映され、分類データベース270に反映される。なお、図12で説明した修正処理は、分類確認GUI800、2値条件修正GUI900などとしてではなく、分類テーブル編集を専用に行う専用GUIを提供して行うこともできる。
図13は、サーバ104が2値条件修正以外の方法で、自動分類結果を修正する他の実施形態について、分類情報「F店でレーズンバターロール」を具体例として示した図である。なお、図13に示した重み付け修正による、自動分類結果の修正は、キーワードの部分一致に対応して実行される重み付け処理を利用して行われる。図13で示した実施形態では、例えば、分類対象語である、「レーズンバターロール」は、「ぶどう」、「バター」、「ロール」の複数の形態素キーワードを含む複合語である。そして、各形態素キーワードは、それぞれが独立して分類対象語とされ、また独立した分類値が与えられている。
図13(a)で示すように重み付けを修正する前の重み付けの実施形態であり、図13(b)は、ユーザによる指定に基づき重み付けが修正された実施形態である。図13(a)に示すように現在設定の知識ベース106は、キーワード=F店については、図4の補助分類テーブル420に示されるように、単一の意味属性に分類され、また2値条件設定もされていない。一方、キーワード=「レーズンバターパン」は、複合語なので、「ぶどう」、「バター」、「食パン」のサブキーワードを与える。
また、言語解析処理は、形態素解析を使用しており、キーワードと関連語、補助分類との間の部分一致についてもヒットの値を返すため、いずれもが分類候補として選択されることになる。一方、分類名で言えば、「レーズンバターロール」は、専門家のノウハウによれば、分類名「食パン」ではなく、「その他のパン」の分類名を付与することがより適正である。このため、専門家ユーザは、現在分類識別値=食パンを、適正分類識別値=その他のパンに修正することが必要とされる。
専門家ユーザからの修正を受領したサーバ104は、専門家からの修正を受領し、ログデータ290を確認した結果、サブキーワードが存在し、当該サブキーワードのうち、いずれかが参考条件として指定されている場合、2値条件の設定処理ではなく、相関係数を修正して、分類識別値=その他のパンのランクを高め分類候補抽出部240に抽出させる修正を行う。修正された参考条件の値は、重み付け処理のための重み条件テーブルを更新するために利用される。なお、重み条件テーブルは、図13に示すように、デフォルト設定では、各分類識別値について割当てられる定数値として設定される。そして、本実施形態で、複合語などサブキーワードに対応する場合などには、参考条件に対応する分類識別値の定数に対し、参考条件に対応するキーワードを有する場合に重み付けが大きくなるように乗数が乗算された値に更新されて、参考条件についての修正を反映させることができる。
サーバ104は、分類情報にサブキーワードを発見すると、サブキーワードの存在をログデータ290に登録する。そして、サブキーワードを分類確認GUI800の参考情報として表示させる。専門家ユーザは、サブキーワードを参考条件として指定し、サーバ104に送付する。サーバ104は、参考条件の修正を検出し、当該参考条件の修正がサブキーワードを指定するものと判断すると、図13(b)で示すように、選択されたサブキーワードについての重み付けを増加させ、選択確率ではなく、相関係数を使用して抽出されるように設定する。この結果、複合語が含むサブキーワードについて部分一致した場合の相関係数を上昇させ、当該分類識別値に関連する重み付けを高くするようにして、特定の分類識別値に対して高い相関性を与えることができる。
図13に示した実施形態では、専門家ユーザは、サブキーワードのうち、「食パン」と「ぶどう」とが分類候補として同時に抽出されたとき、分類情報を参照して当該キーワードについて予め設定された重み付け係数に対し充分大きな補正係数を乗算し、「レーズンバターロール」について、分類識別値=「その他のパン」について相関係数を大きくする。この結果、分類情報が「F店でレーズンバターロール」の場合には、キーワード=レーズンバターロールについて、他の分類識別値よりも、「その他のパン」の分類識別値が分類候補として自動分類されるように設定することができる。
図14は、本実施形態の情報分類システム100が、ユーザ、特に専門家ユーザによる設定を反映して、分類データベース270を修正する場合の、修正後分類テーブル1400の実施形態を示す。図14に示した実施形態では、主分類テーブル1410の各フィールド1402、1404、1406については修正されておらず、補助分類テーブル1420および2値条件テーブル1430に対して修正が反映されている。
補助分類テーブル1420では、分類情報として「NEW店でハンバーグ」が入力されたものとして説明する。NEW店は、修正前の補助分類テーブル420では関連語として登録されておらず、この結果、自動分類結果は、部分一致として、キーワード=ハンバーグに対応する分類名=調理品、分類値=BBBが自動分類結果の分類候補のトップとして自動分類結果とされる。
この場合、サーバ104は、分類確認GUI800で、NEW店についての意味属性に相当する補助分類値につき、例えば「未分類」または空白欄として表示する。専門家ユーザは、この表示を認識すると、当該「未分類」または空白欄のフィールドに適正な補助分類値、例えば「レストラン」、「スーパーマーケット」、「コンビニエンスストア」などを入力し、さらにその他必要な2値条件などの修正箇所を修正した後に、サーバ104に送付する。
サーバ104は、修正を受領して、ログデータ290を参照しながら、図11の処理を使用して修正先を識別し、関連語「NEW店」を補助分類テーブル420に登録し、2値条件として、説明する実施形態では、NEW店はレストランであるので、A店の場合と同様に、「レストラン」、「調理品」をそれぞれ2値条件として登録し、その判断結果として送付された食事代(CCC)を割当てる。割当てられた2値条件は、2値条件テーブル1430の「かまぼこ」の2値条件の後続レコードに追加され、修正後の自動分類処理のために利用される。
図15は、図14で説明した未分類が発生した場合の本実施形態の分類更新処理の前後における自動分類結果の実施形態を示した図である。図15(a)が、分類更新前の旧知識ベースを使用した自動分類結果(比較例)1500であり、図15(b)が、更新処理後の現在知識ベースを使用した自動分類結果である。図15(a)に示すように、更新処理前の旧知識ベースを使用した自動分類処理では、入力された分類情報を登録するフィールド1510に、「NEW店でハンバーグ」が入力されている。このとき、NEW店は、補助分類テーブル420には登録されていないので、自動分類結果を表示するフィールド1520には、最尤分類値である調理品(BBB)が表示され、参考にした情報の欄には、フィールド1530に示すように、NEW店の情報が空欄とされ、また2値条件についてもフィールド1540で示すように未登録となっている。
図15(a)の状況下で、専門家ユーザがフィールド1550、フィールド1560からその専門的ノウハウを用いて各設定値を設定し、サーバ104に送信することにより、サーバ104は、知識ベースを進化的に自動更新する。NEW店は、この時点では主分類テーブル1410に属するか、補助分類テーブル1420に属するか判断できないため、分類語・関連語の選択肢も表示することができる。そしてサーバ104は、次回以降、「NEW店」を含む分類情報について、図15(b)で与えられる自動分類結果1570を生成し、ユーザに対して、図15(b)の分類確認GUIを表示する。
更新後の知識ベースを使用した自動分類結果では、フィールド1580に示される分類情報について、フィールド1590に示された補助分類テーブル420に関連語として登録された、NEW店およびNEW店でハンバーグに対する適正な分類識別値が表示されている。また、2値条件設定を示すフィールド1595には、専門家が指定した2値条件が表示されている。すなわち、更新された現在知識ベースでは、「NEW店でハンバーグ」を分類情報として取得した場合、更新後の全フィールドが専門家ユーザの修正事項を反映し、専門家から見て適正な自動分類結果が与えられていることが示される。
以上のように、本実施形態では、知識ベースを使用した自動分類処理の精度を、専門家ユーザのノウハウを引き出しやすい形式として専門家ユーザに提示し、知的ベースの自動更新を行うことで、知識ベースの進化的な更新を可能とする。この結果、専門家ユーザが蓄積しているノウハウを、ノウハウが必要な分類情報の程度に対応して引き出すことが可能となり、専門家のノウハウを知識ベースへの容易な移植が可能となる。
図16は、本実施形態の情報分類方法を可能とする情報処理装置1600の実施形態を示す。情報処理装置1600は、パーソナル・コンピュータ1620と情報分類処理の結果を表示させ、ユーザに対して分類確認処理を可能とするディスプレイ装置1610、キーボード1630およびマウス1640などの入出力装置を含んで構成されている。また、情報処理装置1600は、DVD、CD−ROM、CD−RWなどの外部記憶装置1650を備えていて、各種媒体からのデータを取得し、またデータ書込みなどを実行している。
情報処理装置1600は、本実施形態では、サーバ104の自動分類結果を表示する分類確認GUIを表示するクライアント102として機能する。この実施形態では、サーバ104に、LAN1660を介し、インターネットなどのネットワーク1670を通してアクセスし、サーバ104に対して、分類情報、地域、購買数、収入、世帯数などの情報分類要求を送付する。サーバ104は、情報分類要求を受領して情報分類処理を実行し、その結果を分類確認GUI800としてクライアント102に返す。ユーザは、クライアント102のデスクトップ画面上で分類確認GUI800に表示された自動分類結果を参照しながら、自動分類結果の承認または修正の処理を実行する。
サーバ104は、ユーザによる修正があった場合、修正箇所のログデータ290を参照して修正内容を知識ベースの内容に反映させ、知識ベースを進化的に更新させる。説明する本実施形態では、専門家ユーザがその専門知識を使用してそれぞれのノウハウを知識ベースに反映させることができる。情報処理装置1600の当該説明する実施形態は、ネットワークを介したSNSサービスとして、例えば「ネット家計簿」、「ネット経理仕分け」などプライベートな用途には充分適用可能であるということができる。しかしながら、この実施形態では、サーバ104の稼働効率は向上するが、知識ベースを更新するユーザの専門性レベルが統一できない可能性も発生する。
サーバ104の稼働効率を向上させ、かつ専門家ユーザの専門性のレベルを管理する観点からは、以下に説明する他の実施形態も採用することができる。他の実施形態では、情報処理装置1600は、専門家ユーザがサーバ104の知識ベースをメンテナンスするための端末装置としても機能する。この実施形態では、一般ユーザがクライアント102からサーバ104に分類情報を送信すると、サーバ104は、例えば一定数のトランザクションに対応する分類情報を、分類処理を行わず、適切な記憶領域、例えばジョブキューに格納する。その後、専門家ユーザが情報処理装置1600からサーバ104に対し、蓄積された分類処理がなされていない分類情報について分類処理要求を発行する。サーバ104は、分類処理の対象とする分類情報を特定し、ジョブキューから順次分類情報を読出して分類処理を実行する。
サーバ104は、分類処理の結果である自動分類結果を表示する分類確認GUI800を専門家ユーザの端末装置である情報処理装置1600に表示させ、自動分類結果の承認または修正を行い、その結果をサーバ104に送付する。サーバ104は、分類情報ごとにログデータ290を参照し、専門家ユーザによる承認や修正の結果を知識ベースに反映させることで、サーバ104の稼働効率を向上させながら、専門家ユーザの専門性レベルを保証しつつ、知識ベースの進化的更新を可能とする。上述した他の実施形態は、専門家ユーザのレベルを保証でき、高度なノウハウに基づいた情報分類を可能とする点で、消費動向、世帯動向などの統計解析のためのプリプロセッシング、または統計解析装置の分類モジュールとして実装する場合に好ましい実施形態ということができる。
また、さらに他の実装態様では、技術情報を特定のコードで指定する、例えば、IPC(International Patent Classification)、FIターム、Fタームなどの技術分類を、専門家ユーザによる分類結果を使用して知識ベースを進化的に更新するためにも利用することができる。この様な実施形態は、具体的には、「データベース」では、IPC分類は、G06F17/00の分類コードが与えられるしかない。しかしながら、分類情報を、本実施形態の如くに意味を含ませることが可能な「データベースのための言語処理」とした場合、G06F17/27、G06F17/30まで分類を絞り込むことができ、この自動分類に対して専門家ユーザのノウハウをさらに適用することで、より効率的な技術分類コードの割当てが可能となる。
なお、本実施形態は、日本語の他、英語、ドイツ語などの言語でも、分類対象語と分類対象語を修飾する意味属性を与える単語とを対応付けて分類情報とされる場合、例えば、「Sushi at Sushi-bar A」、「Hamburger at Restaurant A」、「Language Analysis
for Database」に適用することができる。また、分類情報は、短センテンスで構成される限り、2語でなくともよく、例えば複数語から構成される1語として認識される複合語、3語の短センテンスなど、分類対象語と意味属性とを含む短センテンスである限り、語数に限定されるものではない。
なお、本発明につき、発明の理解を容易にするために各機能手段および各機能手段の処理を記述したが、本発明は、上述した特定の機能手段が特定の処理を実行する外、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能手段に、上述した処理を実行するための機能を割当てることができる。
本発明の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。
これまで本発明を、特定の実施形態をもって説明してきたが、本発明は、実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本実施形態の情報分類システム100の実施形態を示した図。 本実施形態のサーバ104の機能ブロック図。 本実施形態の処理シーケンスの概略図およびスコア付けおよびログ管理部280が作成するログデータ290の実施形態を示した図。 分類データベース270が含むデータ構造体400の実施形態を示した図。 情報分類システム100が実行する分類識別値決定処理の実施形態についてのフローチャート。 図5で説明した分類識別値決定の決定処理600をグラフィカルに説明した図。 分類候補抽出部250が抽出した分類候補に関して、図5のポイントAから処理を渡される分類更新部210が実行する分類確認処理の実施形態のフローチャート。 本実施形態で、分類更新部250がクライアント102に表示させる分類確認GUI800の実施形態を示した図。 図8でユーザが2値条件を修正する必要があると判断し、2値条件修正ボタン870をクリックした場合に表示される、分類確認GUIの他の実施形態を示した図。 サーバ104が、ログデータ290を参照して自動分類を実行し、修正を知識ベース106に反映させて行く自動分類ポリシー1000を、テーブルとして示した図。 図7のポイントBを経て処理が開始される、分類更新処理のフローチャート。 分類データベース270が含む分類テーブル400の修正反映処理1200の実施形態を、データ構造体レベルで説明する図。 サーバ104が2値条件修正以外の方法で、自動分類結果を修正する他の実施形態について、分類情報「F店でレーズンバターロール」を具体例として示した図。 本実施形態の情報分類システム100が、ユーザ、特に専門家ユーザによる設定を反映して、分類データベース270を修正する場合の、修正後分類テーブル1400の実施形態を示した図。 図14で説明した未分類が発生した場合の本実施形態の分類更新処理の前後における自動分類結果の実施形態を示した図。 本実施形態の情報分類方法を可能とする情報処理装置1600の実施形態を示した図。
符号の説明
100…情報分類システム、102…クライアント・コンピュータ(クライアント)、104…サーバ、106…知識ベース、108…ネットワーク、110…分類情報読み取り装置、200…機能ブロック構成(サーバ)、210…ネットワーク・アダプタ、220…言語解析部、230…言語要素分類部、240…分類候補抽出部、250…分類更新部、260…単語辞書データベース、270…分類データベース、280…ログ管理部、290…ログデータ、800…分類確認GUI、900…2値条件設定GUI

Claims (20)

  1. 情報に対して分類識別値を割当てて情報分類を行う情報分類システムであって、前記情報分類システムは、
    分類するべき情報である分類情報を語列として受領し、前記分類情報を言語解析し、前記分類情報が含む複数のキーワードを取得して前記複数のキーワードを分類対象語と、前記分類対象語を修飾する関連語とに要素分類し、前記関連語を分類決定のための判断条件とし、前記分類対象語を前記関連語から分離して検索することにより前記分類情報について前記分類識別値を割当てる知識ベースと、
    前記知識ベースが割当てた前記分類識別値を抽出して自動分類結果を生成する分類候補抽出部と、
    前記自動分類結果を受領して前記自動分類結果の妥当性を確認するための分類確認用GUIを表示させ、前記分類確認用GUIを介して受領した修正値で、前記言語解析および前記要素分類に関する自動分類についての処理履歴であるログデータを参照して前記知識ベースの登録項目を修正する、分類更新部と
    を含む情報分類システム。
  2. 前記知識ベースは、
    前記分類情報から複数のキーワードを、単語辞書データベースを参照して抽出する言語解析部と、
    抽出された前記複数のキーワードについて前記分類対象語であるか、または前記分類対象語を修飾する前記関連語であるかを、分類データベースを参照して分類し、前記分類対象語について2値条件が登録されている場合、前記2値条件の判断を優先実行する言語要素分類部と
    を含む、請求項1に記載の情報分類システム。
  3. 前記単語辞書データベースは、形態素キーワード、表現揺れキーワード、および上下概念キーワードを登録し、前記分類データベースは、前記分類対象語を前記分類識別値に対応付ける主分類テーブルと、前記分類対象語を修飾する前記関連語について意味属性に関連付ける補助分類テーブルと、前記分類対象語についての前記分類識別値について設定される2値条件と前記2値条件を使用した判断結果とを対応付ける2値条件テーブルとを登録する、請求項2に記載の情報分類システム。
  4. 前記分類更新部は、前記分類確認用GUIを介して2値条件または重み付けを修正するための参考条件の修正を受領し、前記2値条件テーブルを前記2値条件の修正で更新する、請求項3に記載の情報分類システム。
  5. 前記分類データベースは、さらに前記分類対象語を修飾する付属属性を登録しており、前記2値条件は、前記関連語、前記付属属性または分類識別値から抽出されて前記2値条件テーブルにその結果とともに登録される、請求項4に記載の情報分類システム。
  6. 前記分類情報は、少なくとも分類対象語を含む短センテンスの意味的に関連付いた語列である、請求項5に記載の情報分類システム。
  7. 前記情報分類システムは、ネットワークを介して前記分類情報および前記修正を受領し、前記修正が専門家ユーザのノウハウを反映した修正である、請求項1に記載の情報分類システム。
  8. 情報に対して分類識別値を割当てて情報分類を行う情報処理装置であって、前記情報処理装置は、
    分類するべき情報である分類情報を語列として受領し、前記分類情報を言語解析し、前記分類情報が含む複数のキーワードを取得して前記複数のキーワードを分類対象語と、前記分類対象語を修飾する関連語とに要素分類し、前記関連語を分類決定のための判断条件とし、前記分類対象語を前記関連語から分離して検索することにより前記分類情報について前記分類識別値を割当てる知識ベースと、
    前記知識ベースが割当てた前記分類識別値を抽出して自動分類結果を生成する分類候補抽出部と、
    前記自動分類結果を受領して前記自動分類結果の妥当性を確認するための分類確認用GUIを表示させ、前記分類確認用GUIを介して受領した修正値で、前記言語解析および前記要素分類に関する自動分類についての処理履歴であるログデータを参照して前記知識ベースの登録項目を修正する、分類更新部と
    を含む情報処理装置。
  9. 前記知識ベースは、
    前記分類情報から複数のキーワードを、単語辞書データベースを参照して抽出する言語解析部と、
    抽出された前記複数のキーワードについて前記分類対象語であるか、または前記分類対象語を修飾する前記関連語であるかを、分類データベースを参照して分類し、前記分類対象語について2値条件が登録されている場合、前記2値条件の判断を優先実行する言語要素分類部と
    を含む、請求項8記載の情報処理装置。
  10. 前記単語辞書データベースは、形態素キーワード、表現揺れキーワード、および上下概念キーワードを登録し、前記分類データベースは、前記分類対象語を前記分類識別値に対応付ける主分類テーブルと、前記分類対象語を修飾する前記関連語について意味属性に関連付ける補助分類テーブルと、前記分類対象語についての前記分類識別値について設定される2値条件と前記2値条件を使用した判断結果とを対応付ける2値条件テーブルとを登録する、請求項9に記載の情報処理装置。
  11. 前記分類データベースは、さらに前記分類対象語を修飾する付属属性を登録しており、前記2値条件は、前記関連語、前記付属属性または分類識別値から抽出されて前記2値条件テーブルにその結果とともに登録される、請求項10に記載の情報処理装置。
  12. 前記分類情報は、少なくとも分類対象語を含む短センテンスの意味的に関連付いた語列である、請求項11に記載の情報処理装置。
  13. 情報に対して分類識別値を割当てて情報分類を行う情報処理装置が実行する情報分類方法であって、前記情報分類方法は、前記情報処理装置が、
    分類するべき情報である分類情報を語列として受領し、前記分類情報を言語解析するステップと、
    前記分類情報が含む複数のキーワードを取得して前記複数のキーワードを分類対象語と、前記分類対象語を修飾する関連語とに要素分類し、前記関連語を分類決定のための判断条件とし、前記分類対象語を前記関連語から分離して検索することにより前記分類情報について前記分類識別値を割当てるステップと、
    割当てられた前記分類識別値を抽出して自動分類結果を生成するステップと、
    前記自動分類結果を受領して前記自動分類結果の妥当性を確認するための分類確認用GUIを表示させるステップと、
    前記分類確認用GUIを介して受領した修正値で、前記言語解析および前記要素分類に関する自動分類についての処理履歴であるログデータを参照して前記知識ベースの登録項目を修正するステップと
    を実行する情報分類方法。
  14. 前記言語解析するステップは、前記分類情報から複数のキーワードを、単語辞書データベースを参照して抽出するステップを含み、
    前記分類識別値を割当てるステップは、抽出された前記複数のキーワードについて前記分類対象語であるか、または前記分類対象語を修飾する前記関連語であるかを、分類データベースを参照して分類し、前記分類対象語について2値条件が登録されている場合、前記2値条件の判断を優先実行するステップと
    を含む、請求項13記載の情報分類方法。
  15. 前記単語辞書データベースは、形態素キーワード、表現揺れキーワード、および上下概念キーワードを登録し、
    前記分類データベースは、前記分類対象語を前記分類識別値に対応付ける主分類テーブルと、前記分類対象語を修飾する前記関連語について意味属性に関連付ける補助分類テーブルと、前記分類対象語についての前記分類識別値について設定される2値条件と前記2値条件を使用した判断結果とを対応付ける2値条件テーブルとを登録しており、
    前記登録項目を修正するステップは、
    前記分類確認用GUIを介して2値条件または重み付けを修正するための参考条件の修正を受領し、前記2値条件テーブルを修正された前記2値条件または前記付属属性の値で更新するステップを含む、請求項14に記載の情報分類方法。
  16. 前記分類情報は、少なくとも分類対象語を含む短センテンスの意味的に関連付いた語列としてネットワークを介して受領するステップと含む、請求項15に記載の情報分類方法。
  17. 情報に対して分類識別値を割当てて情報分類を行う情報処理装置が実行可能なプログラムであって、前記プログラムは、前記情報処理装置が、
    分類するべき情報である分類情報を語列として受領し、前記分類情報を言語解析するステップと、
    前記分類情報が含む複数のキーワードを取得して前記複数のキーワードを分類対象語と、前記分類対象語を修飾する関連語とに要素分類し、前記関連語を分類決定のための判断条件とし、前記分類対象語を前記関連語から分離して検索することにより前記分類情報について前記分類識別値を割当てるステップと、
    割当てられた前記分類識別値を抽出して自動分類結果を生成するステップと、
    前記自動分類結果を受領して前記自動分類結果の妥当性を確認するための分類確認用GUIを表示させるステップと、
    前記分類確認用GUIを介して受領した修正値で、前記言語解析および前記要素分類に関する自動分類についてのログデータを参照して前記知識ベースの登録項目を修正するステップと
    を実行する、装置実行可能なプログラム。
  18. 前記言語解析するステップは、前記分類情報から複数のキーワードを、単語辞書データベースを参照して抽出するステップを含み、
    前記分類識別値を割当てるステップは、抽出された前記複数のキーワードについて前記分類対象語であるか、または前記分類対象語を修飾する前記関連語であるかを、分類データベースを参照して分類し、前記分類対象語について2値条件が登録されている場合、前記2値条件の判断を優先実行するステップと
    を含む、請求項17記載のプログラム。
  19. 前記単語辞書データベースは、形態素キーワード、表現揺れキーワード、および上下概念キーワードを登録し、
    前記分類データベースは、前記分類対象語を前記分類識別値に対応付ける主分類テーブルと、前記分類対象語を修飾する前記関連語について意味属性に関連付ける補助分類テーブルと、前記補助分類テーブルに登録された前記関連語から抽出されて設定される2値条件と前記2値条件を使用した判断結果とを対応付ける2値条件テーブルと、前記分類対象語を修飾する付属属性を登録しており、
    前記登録項目を修正するステップは、
    前記分類確認用GUIを介して2値条件または重み付けを修正するための参考条件の修正を受領し、前記2値条件テーブルを修正された前記2値条件または前記付属属性の値で更新するステップを含む、請求項18に記載のプログラム。
  20. 前記分類情報は、少なくとも分類対象語を含む短センテンスの意味的に関連付いた語列としてネットワークを介して受領するステップと含む、請求項19に記載のプログラム。
JP2008087611A 2008-03-28 2008-03-28 情報分類システム、情報処理装置、情報分類方法およびプログラム Expired - Fee Related JP5043735B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008087611A JP5043735B2 (ja) 2008-03-28 2008-03-28 情報分類システム、情報処理装置、情報分類方法およびプログラム
US12/342,300 US8260731B2 (en) 2008-03-28 2008-12-23 Information classification system, information processing apparatus, information classification method and program
US13/437,082 US9245012B2 (en) 2008-03-28 2012-04-02 Information classification system, information processing apparatus, information classification method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008087611A JP5043735B2 (ja) 2008-03-28 2008-03-28 情報分類システム、情報処理装置、情報分類方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009244950A JP2009244950A (ja) 2009-10-22
JP5043735B2 true JP5043735B2 (ja) 2012-10-10

Family

ID=41118658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008087611A Expired - Fee Related JP5043735B2 (ja) 2008-03-28 2008-03-28 情報分類システム、情報処理装置、情報分類方法およびプログラム

Country Status (2)

Country Link
US (2) US8260731B2 (ja)
JP (1) JP5043735B2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
US10275530B2 (en) * 2009-02-02 2019-04-30 Excalibur Ip, Llc System and method for communal search
JP2010244388A (ja) * 2009-04-08 2010-10-28 Pioneer Electronic Corp 情報提供装置、情報提供方法、及び情報提供用プログラム
US8650613B2 (en) * 2009-11-17 2014-02-11 Red Hat, Inc. Simplified pairing for wireless devices
JP5156047B2 (ja) * 2010-03-31 2013-03-06 株式会社東芝 キーワード提示装置、方法及びプログラム
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9286371B2 (en) * 2010-12-23 2016-03-15 Sap Se Presenting a multidimensional decision table
US9665637B2 (en) * 2011-02-23 2017-05-30 H. Paul Zellweger Method and apparatus for creating binary attribute data relations
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
KR20120100474A (ko) * 2011-03-04 2012-09-12 엔에이치엔(주) 사용자 입력에 대한 분류 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US8875293B2 (en) * 2011-09-22 2014-10-28 Raytheon Company System, method, and logic for classifying communications
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
CN103984685A (zh) * 2013-02-07 2014-08-13 百度国际科技(深圳)有限公司 一种用于对待分类词条进行分类的方法、装置与设备
JP6205771B2 (ja) * 2013-03-18 2017-10-04 富士通株式会社 議論支援プログラム、議論支援方法及び議論支援サーバ
CN104166655B (zh) * 2013-05-17 2017-12-08 北京四维图新科技股份有限公司 一种电子地图注记分行方法及装置
US20150142717A1 (en) * 2013-11-19 2015-05-21 Microsoft Corporation Providing reasons for classification predictions and suggestions
CN103744981B (zh) * 2014-01-14 2017-02-15 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的***
CN103778225B (zh) * 2014-01-23 2018-04-03 北京奇虎科技有限公司 广告营销类语言信息的处理方法、识别装置及***
US9836520B2 (en) 2014-02-12 2017-12-05 International Business Machines Corporation System and method for automatically validating classified data objects
WO2016002298A1 (ja) * 2014-06-30 2016-01-07 ソニー株式会社 情報処理装置、制御方法、およびプログラム
CN105589853B (zh) * 2014-10-20 2017-09-15 阿里巴巴集团控股有限公司 一种类目目录确定方法及装置、自动分类方法及装置
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
CN105045782A (zh) * 2014-11-14 2015-11-11 国家电网公司 一种铁磁谐振故障知识库构建方法
US10275522B1 (en) * 2015-06-11 2019-04-30 State Farm Mutual Automobile Insurance Company Speech recognition for providing assistance during customer interaction
EP3324305A4 (en) * 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
CN105513155B (zh) * 2015-12-01 2018-03-02 中国联合网络通信集团有限公司 巡检照片的分类、命名方法及终端设备
JP6679954B2 (ja) 2016-01-28 2020-04-15 富士通株式会社 属性付与制御プログラム、情報処理装置および属性付与制御方法
JP2017134693A (ja) 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置
WO2017208381A1 (ja) * 2016-06-01 2017-12-07 楽天株式会社 サーバ装置、サービス方法、プログラム、及び、非一時的なコンピュータ読取可能な情報記録媒体
CN106649262B (zh) * 2016-10-31 2020-07-07 复旦大学 一种社交媒体中企业硬件设施敏感信息防护方法
US10679008B2 (en) * 2016-12-16 2020-06-09 Microsoft Technology Licensing, Llc Knowledge base for analysis of text
CN108241629A (zh) * 2016-12-23 2018-07-03 百度在线网络技术(北京)有限公司 关键词分组方法和装置
CN108335110B (zh) * 2017-01-17 2022-04-12 阿里巴巴集团控股有限公司 聊天信息处理方法及装置
KR101930034B1 (ko) * 2017-02-24 2019-03-14 (주)위세아이텍 데이터의 도메인을 판별하는 장치 및 그 방법
JP6805927B2 (ja) * 2017-03-28 2020-12-23 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
US11816143B2 (en) * 2017-07-18 2023-11-14 Ebay Inc. Integrated image system based on image search feature
JP7044967B2 (ja) * 2017-07-21 2022-03-31 富士通株式会社 格納制御プログラム、格納制御装置及び格納制御方法
JP7069615B2 (ja) * 2017-09-26 2022-05-18 カシオ計算機株式会社 情報処理システム、電子機器、情報処理方法及びプログラム
US20190130027A1 (en) * 2017-11-02 2019-05-02 International Business Machines Corporation Data classification
JP7029347B2 (ja) 2018-05-11 2022-03-03 株式会社東芝 情報処理方法、プログラムおよび情報処理装置
US11048711B1 (en) * 2018-12-19 2021-06-29 First American Financial Corporation System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
US10997403B1 (en) 2018-12-19 2021-05-04 First American Financial Corporation System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
CN109783639B (zh) * 2018-12-24 2020-10-27 银江股份有限公司 一种基于特征提取的调解案件智能分派方法及***
CN110941715A (zh) * 2019-10-23 2020-03-31 北京精英***科技有限公司 一种实体对象分类判断的方法
KR102297113B1 (ko) * 2019-11-18 2021-09-02 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
WO2021137689A1 (en) * 2019-12-31 2021-07-08 Mimos Berhad System for library materials classification and a method thereof
CN112132645B (zh) * 2020-08-26 2022-05-17 北京思特奇信息技术股份有限公司 一种资费配置模板同类元素校验方法及***
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN112560992B (zh) * 2020-12-25 2023-09-01 北京百度网讯科技有限公司 优化图片分类模型的方法、装置、电子设备及存储介质
CN113282735A (zh) * 2021-06-28 2021-08-20 中国平安人寿保险股份有限公司 客户线索的处理方法、装置、设备及存储介质
CN113689633B (zh) * 2021-08-26 2023-03-17 浙江力石科技股份有限公司 一种景区人机交互方法、装置及***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3106421B2 (ja) * 1992-02-17 2000-11-06 日本電信電話株式会社 用語生成装置
JP3526198B2 (ja) 1996-12-20 2004-05-10 富士通株式会社 データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003067471A1 (fr) * 2002-02-04 2003-08-14 Celestar Lexico-Sciences, Inc. Appareil et procede permettant de traiter des connaissances dans des documents
US7040729B2 (en) 2002-06-06 2006-05-09 Oce Display Graphics Systems, Inc. Systems, methods, and devices for controlling ink delivery to print heads
JP4419871B2 (ja) * 2005-03-02 2010-02-24 富士ゼロックス株式会社 翻訳依頼装置およびプログラム
JP2006343925A (ja) 2005-06-08 2006-12-21 Fuji Xerox Co Ltd 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP4521343B2 (ja) * 2005-09-29 2010-08-11 株式会社東芝 文書処理装置及び文書処理方法

Also Published As

Publication number Publication date
US20120254085A1 (en) 2012-10-04
US9245012B2 (en) 2016-01-26
US8260731B2 (en) 2012-09-04
JP2009244950A (ja) 2009-10-22
US20090248671A1 (en) 2009-10-01

Similar Documents

Publication Publication Date Title
JP5043735B2 (ja) 情報分類システム、情報処理装置、情報分類方法およびプログラム
US10565234B1 (en) Ticket classification systems and methods
CN106919702B (zh) 基于文档的关键词推送方法及装置
JP4093012B2 (ja) ハイパーテキスト検査装置および方法並びにプログラム
US9171057B2 (en) Classifying data using machine learning
US9836511B2 (en) Computer-generated sentiment-based knowledge base
JP5824532B2 (ja) サーフショッピングのための関連抽出のシステム及び方法
US20110087961A1 (en) Method and System for Assisting in Typing
EP2315132A2 (en) System and method for searching and matching databases
US20040260677A1 (en) Search query categorization for business listings search
US20130185306A1 (en) Entity Matching Using Machine Learning
US20130110831A1 (en) Determination of a desired repository
CN103488465B (zh) 功能配置推荐方法及***
JP2017505964A (ja) 機械学習に基づく自動タスク分類
US10949418B2 (en) Method and system for retrieval of data
US8805872B1 (en) Supplementing search results with information of interest
US20160299891A1 (en) Matching of an input document to documents in a document collection
US11941073B2 (en) Generating and implementing keyword clusters
US20200402125A1 (en) Guide word recommendation
US20220222693A1 (en) Method of demographic information generation from name
JP3743204B2 (ja) データ分析支援方法および装置
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
EP3318987B1 (en) Method and system for retrieval of data
KR101078966B1 (ko) 문서 분석 시스템
WO2016189594A1 (ja) 不満情報処理装置及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees