JP2005251091A - データ処理装置、データ処理方法およびデータ処理プログラム - Google Patents

データ処理装置、データ処理方法およびデータ処理プログラム Download PDF

Info

Publication number
JP2005251091A
JP2005251091A JP2004064172A JP2004064172A JP2005251091A JP 2005251091 A JP2005251091 A JP 2005251091A JP 2004064172 A JP2004064172 A JP 2004064172A JP 2004064172 A JP2004064172 A JP 2004064172A JP 2005251091 A JP2005251091 A JP 2005251091A
Authority
JP
Japan
Prior art keywords
data
group
data processing
classification
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004064172A
Other languages
English (en)
Inventor
Kosuke Sasai
浩介 笹井
Naoaki Suganuma
直昭 菅沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2004064172A priority Critical patent/JP2005251091A/ja
Publication of JP2005251091A publication Critical patent/JP2005251091A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索対象のデータの分類に関する情報をデータ検索や検索対象のデータの蓄積に有効に活用可能なデータ検索装置に利用可能なデータ処理装置を提供する。
【解決手段】キーワード生成部161は、日本語解析エンジン17を利用してデータ群111の各データからキーワードを生成し、キーワード分類部162へ出力する。キーワード分類部162は、キーワードをクラスタリングして分類項目を決定し、決定した分類項目に基づいてキーワードをデータストア11に格納する。キーワード分類部162におけるクラスタリングは、分類されたデータ群111に基づいて行われる。
【選択図】図6

Description

本発明は、データ処理装置、データ処理方法およびデータ処理プログラムに関する。
クエリを用いて多数のデータに対する検索を行うデータ検索装置が広範に使用されている。このようなデータ検索装置では、検索に使用するクエリが適切であれば、所望のデータを含む比較的少数のデータを検索出力として得ることができる。しかし、適切なクエリの選択には、所望のデータに対する予備知識が必要であるとともに、データ検索装置におけるデータ検索のアルゴリズムにもある程度通じている必要がある。このため、データ検索装置において、不適切なキーワードを含むクエリがデータ検索に使用されて、膨大なノイズを含む検索結果が出力されたり、検索出力に所望のデータが含まれなかったりすることも多い。
この問題を解決するため、単語に関する知識をデータ検索や検索対象のデータの蓄積に利用する技術が知られている。
例えば、特許文献1には、単語に関する知識を含むグラフを利用して、入力された単語の関連語を提示する技術が開示されている。また、特許文献2には、単語に関する知識を格納した領域オントロジを利用して、データを分類して蓄積する技術が開示されている。さらに、特許文献3には、単語に関する知識を含むオントロジ辞書を利用して、データを分類して蓄積する技術が開示されている。
特開2000−32394号公報 特開2000−276487号公報 特開2001−229177号公報
しかし、特許文献1〜3の技術では、検索対象のデータが複数の分類項目を含む分類項目群に分類されている場合に、その分類の情報をデータ検索や検索対象のデータの蓄積に利用することができなかった。
本発明は、この問題を解決するためになされたもので、検索対象のデータの分類に関する情報をデータ検索や検索対象のデータの蓄積に有効に活用可能なデータ処理装置を提供することを目的とする。
上記課題を解決するため、請求項1の発明は、データ処理装置であって、複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する生成手段と、分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類手段と、前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定手段とを備えることを特徴とする。
請求項2の発明は、請求項1に記載のデータ処理装置において、前記第1データ群の各データがテキストデータであり、前記第2データ群の各データが前記第1データ群のテキストデータの索引に相当するテキストデータであることを特徴とする。
請求項3の発明は、請求項2に記載のデータ処理装置において、前記第1データ群が文献に係るデータ群であり、前記第2データ群が前記文献の索引に係るデータ群であることを特徴とする。
請求項4の発明は、請求項2に記載のデータ処理装置において、前記第1データ群が医療行為によって発生したインシデントに係るデータ群であり、前記第2データ群が前記インシデントの索引に係るデータ群であることを特徴とする。
請求項5の発明は、請求項1ないし請求項4のいずれかに記載のデータ処理装置において、前記第2データ群が前記第1データ群の部分データであることを特徴とする。
請求項6の発明は、請求項2に記載のデータ処理装置において、前記生成手段が、前記テキストデータに記述された文字列を単語群に分割する形態素解析手段と、前記単語群から前記第2データ群を構築する構築手段とを備えることを特徴とする。
請求項7の発明は、請求項6に記載のデータ処理装置において、前記構築手段が、前記単語群の中の重複語を除去する手段を有することを特徴とする。
請求項8の発明は、請求項6または請求項7に記載のデータ処理装置において、前記構築手段が、所定の不要語特定規則に従って前記単語群の中の不要語を特定し、当該不要語を除去する手段を有することを特徴とする。
請求項9の発明は、請求項6ないし請求項8のいずれかに記載のデータ処理装置において、前記分類手段が、前記第1データ群の各データにおける前記第2データ群の各データの重みを所定の重み算出規則に従って算出する算出手段を備え、前記第2データ群の分類に前記重みを利用することを特徴とする。
請求項10の発明は、請求項9に記載のデータ処理装置において、前記重みが所定の重要度判定規則によって定まるデータの重要度であることを特徴とする。
請求項11の発明は、請求項10に記載のデータ処理装置において、前記重要度が、索引語の出現頻度と、当該索引語を含む文書の数の逆数との積であることを特徴とする。
請求項12の発明は、請求項1ないし請求項11のいずれかに記載のデータ処理装置において、前記分類手段が、前記第2データ群の各データを、前記第1データ群の分類項目に対応する成分を有するベクトルへ変換するベクトル化手段を備え、前記第2データ群の分類に前記ベクトルを利用することを特徴とする。
請求項13の発明は、請求項12に記載のデータ処理装置において、前記第2データ群の各データについて、前記第1データ群の各分類項目への関連性の程度を表現した重みに基づいて、前記ベクトルの各成分をそれぞれ定めることを特徴とする。
請求項14の発明は、請求項1ないし請求項13のいずれかに記載のデータ処理装置において、前記分類手段が、分類にニューラルネットワークを使用することを特徴とする。
請求項15の発明は、請求項14に記載のデータ処理装置において、前記ニューラルネットワークが自己組織化マップであることを特徴とする。
請求項16の発明は、請求項1ないし請求項15のいずれかに記載のデータ処理装置において、前記新規データが前記第1データ群に追加されるデータであることを特徴とする。
請求項17の発明は、請求項1ないし請求項15のいずれかに記載のデータ処理装置において、前記新規データが前記第1データ群に対する検索に使用されるクエリから生成されることを特徴とする。
請求項18の発明は、請求項17に記載のデータ処理装置において、前記新規データが属する分類項目に属する他の前記第2データ群のデータを抽出する抽出手段をさらに備えることを特徴とする。
請求項19の発明は、請求項18に記載のデータ処理装置において、前記新規データに関する補助情報を出力する出力手段をさらに備え、前記補助情報が前記新規データが属する分類項目に含まれる他の前記第2データ群のデータに基づいて作成されることを特徴とする。
請求項20の発明は、請求項1に記載のデータ処理装置において、前記新規データを操作者に入力させる入力手段をさらに備えることを特徴とする。
請求項21の発明は、データ処理方法であって、複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する工程と、分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類行程と、前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定行程とを備えることを特徴とする。
請求項22の発明は、データ処理プログラムであって、前記プログラムのコンピュータによる実行は、前記コンピュータに、複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する生成工程と、分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類行程と、前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定行程とを実行させることを特徴とする。
請求項1ないし請求項22の発明によれば、分類された前記第1データ群に基づいて、第2データ群が分類され、分類された第2データ群に基づいて新規データが属する分類項目が特定されるので、新規データの処理に第1データ群の分類の情報を有効に利用可能になる。
請求項3の発明によれば、新規データが属する文献の分類項目が決定されるので、新規データの処理に文献の分類項目を利用可能になる。
請求項4の発明によれば、新規データが属するインシデントの分類項目が決定されるので、新規データの処理にインシデントの分類項目を利用可能になる。
請求項9ないし請求項13の発明によれば、第2データ群の各データが数値化されるので、第2データ群の分類処理が容易になる。
請求項12または請求項13の発明によれば、第2データ群の各データがベクトル化されるので、第2データ群の分類処理が容易になる。
請求項18または請求項19の発明によれば、新規データが属する分類項目に含まれる他の第2データ群のデータが抽出されるので、抽出されたデータを利用可能になる。
請求項19の発明によれば、新規データが属する分類項目に含まれる他の第2データ群のデータに基づいて作成された補助情報が出力されるので、操作者は当該補助情報を利用可能になる。
請求項20の発明によれば、操作者が入力した新規データの処理が可能になる。
本実施形態のデータ検索装置1は、入力されたクエリを用いて、データストア11に格納されたデータ群111に対する検索を実行する。図2に示すように、データ検索装置1では、複数の分類項目に分類された状態でデータ群111がデータストア11に格納される。また、データ検索装置1のデータストア11には、データ群111と同様の分類項目に分類された状態で、データ群111から抽出されたキーワード群112が格納される。
さらに、データ処理装置でもあるデータ検索装置1は、データ群111に追加データを登録する場合に分類項目が指定されなくても、追加データが属する分類項目を追加データに含まれるキーワードを用いて決定可能である。また、データ検索装置1は、クエリが入力された場合に、クエリに含まれるキーワードを用いてクエリに関する補助情報であるヒントを生成可能である。なお、データ検索装置1は、テキストデータおよびバイナリデータ(イメージデータやムービーデータ等)のいずれも処理対象とすることができるが、以下では、データ群111が日本語の文字列を記述したテキストデータの集合であるとして説明を進める。
<ハードウエア構成>
図1は、本実施形態のデータ検索装置1を実現するためのコンピュータ4のハードウエア構成を示すブロック図である。
コンピュータ4は、バス41等で接続されたCPU42、メモリ43、グラフィックスアダプタ44、入力デバイス45および記憶装置46を備える。グラフィックスアダプタ44には、ユーザインターフェース12を提供する出力デバイスとなるディスプレイ47が接続される。また、ユーザインターフェース12を提供する入力デバイス45は、キーボード451およびポインティングデバイス452を含む。
ハードディスクドライブ等で構成される記憶装置46には、コンピュータ4の基本動作を規定するオペレーティングシステム(以下では、「OS」とも称する)461がインストールされる。記憶装置46には、OS461の管理下で実行されるデータ検索プログラム462もインストールされる。データ検索装置1では、コンピュータ4がデータ検索プログラム462を実行することにより、後述する図2、5〜6および8〜9における各機能ブロックの機能が実現される。
なお、単一のコンピュータ4によってデータ検索装置1が実現される例を上記で示したが、データ検索装置1がネットワーク接続された複数のコンピュータによって実現されることも妨げられない。
<機能構成>
○全体構成;
図2は、データ検索装置1の全体の機能構成を示すブロック図である。
記憶装置46を用いて実現されるデータ検索装置1のデータストア11には、データ群111およびキーワード群112が格納される。データ群111は、データ検索装置1において検索対象となるデータの集合である。キーワード群112は、データ群111を構成する各データのキーワードの集合であり、データ群111とは異なるデータの体系となっている。キーワードは、データを特徴付ける索引ないしはインデックスであり、好ましくはデータ群111を構成するデータの部分データである。これにより、データ群111の各データからキーワードを抽出可能となるので、キーワードの生成が容易になる。データ群111およびキーワード群112は、分類項目G0,G1,・・・,GNc-1を含む分類項目群に分類された状態でデータストア11に格納される。図3には、データ群111{D0,D1,・・・,Dp}が分類項目G0,G1,・・・,GNc-1に分類された状態の例が示されている。また、図4には、キーワード群112{K0,K1,・・・,KNk}が分類項目G0,G1,・・・,GNc-1に分類された状態の例が示されている。なお、データ群111およびキーワード群112のデータモデルは、リレーショナル型に制限されず、階層型またはネットワーク型でもよい。
データ検索装置1は、操作者等の外部から新規に与えられる入力データの取得および操作者等の外部への出力データの提示を行うユーザインターフェース12を備える。入力データには、データ群111に対する検索に使用されるクエリおよびデータ群111に追加される追加データが含まれる。出力データには、データ群111に対する検索により得られた検索結果およびクエリに関するヒントが含まれる。ユーザインターフェース12が取得したクエリおよび追加データは、それぞれ、クエリ処理エンジン13および追加データ処理エンジン14へ出力される。
クエリ処理エンジン13は、与えられたクエリを解析してキーワードを生成し、データ検索エンジン15へ出力する。また、クエリ処理エンジン13は、データストア11にアクセスして生成したキーワードが属する分類項目に属する他のキーワード(以下では、「同一分類キーワード」とも称する)を取得する。さらに、クエリ処理エンジン13は、同一分類キーワードに基づいて上述のヒントを生成してユーザインターフェース12へ出力する。
データ検索エンジン15は、データストア11にアクセスして、与えられたキーワードを含むデータを取得する。さらに、データ検索エンジン15は、取得したデータを検索結果としてユーザインターフェース12へ出力する。
追加データ処理エンジン14は、与えられた追加データを解析してキーワードを生成する。また、追加データ処理エンジン14は、データストア11にアクセスして、生成したキーワードが属する分類項目を特定し、追加データが属する分類項目を決定する。分類項目が決定された追加データは、当該分類項目に従ってデータストア11に格納される。
データ処理エンジン16は、データ群111からキーワード群112を生成し、分類されたデータ群111に基づいてキーワード群112の分類を行う。キーワードの生成および分類は、データストア11にデータが追加されるごとに行われる。
さらに、データ検索装置1は、データ検索装置1の内部の日本語処理に使用される日本語解析エンジン17を備える。
以下では、上述の各機能ブロックについてさらに詳細に説明する。
○日本語解析エンジン;
図5は、入力された自然文からキーワードを抽出して出力する日本語解析エンジン17の機能構成を示すブロック図である。
日本語解析エンジン17は、形態素解析部171、不要語除去部172および重複語除去部173を備える。形態素解析部171は、与えられた自然文を単語に分割して品詞情報とともに不要語除去部172へ出力する。不要語除去部172は、品詞情報や頻出辞書174を参照し、所定の規則に基づいて不要語を特定して、与えられた単語をフィルタリングし、キーワードとして適切な単語のみを抽出する。重複語除去部173は、不要語除去部172が抽出したキーワードに含まれる重複語を除去して出力する。
このような日本語解析エンジン17は、クエリ処理エンジン13、追加データ処理エンジン14およびデータ処理エンジン16におけるキーワード生成時に使用される。
なお、日本語解析エンジン17は、データ検索装置1が処理対象とするデータで使用されている言語によって適宜変更される。すなわち、処理対象とするデータで日本語以外の言語が使用される場合は、当該言語用の言語解析エンジンが日本語解析エンジン17に代わって使用される。もちろん、複数言語に対応した言語解析エンジンが日本語解析エンジン17に代わってデータ検索装置1に搭載されることも妨げられない。
○データ処理エンジン;
図6は、データ処理エンジン16の機能構成を示すブロック図である。
データ処理エンジン16は、キーワード生成部161およびキーワード分類部162を備える。キーワード生成部161は、日本語解析エンジン17を利用してデータ群111の各データからキーワードを生成し、キーワード分類部162へ出力する。ひとつのデータから生成されるキーワードはひとつに制限されず、複数であってもよい。また、異なるデータから重複するキーワードが生成されることも妨げられない。
キーワード分類部162は、キーワードをクラスタリングして分類項目を決定し、決定した分類項目に従ってキーワードをデータストア11に格納する。キーワード分類部162におけるクラスタリングは、分類されたデータ群111に基づいて行われる。換言すれば、キーワード分類部162におけるクラスタリングは、データ群111の分類の情報を用いて行われる。クラスタリングの方法は制限されないが、ニューラルネットワーク、遺伝アルゴリズムおよびリンク分析等を利用した方法が適用可能である。以下では、これらの方法等のうち、ニューラルネットワークの一形態である自己組織化マップをクラスタリングに利用する例を説明する。
なお、クラスタリングの方法によっては、キーワードを数値で表現する必要がある場合やキーワードを数値で表現した方が処理が容易になる場合もある。このような場合において、キーワードを表現する数値は、単一の数値のみならず、複数の数値の組であってもよい(キーワードを複数の数値の組で表現することを以下では「ベクトル化」とも称する)。数値化の方法には、データ群の各データにおけるキーワードの重みに基づいて数値化する方法や、データ群111の各データにおけるキーワードの共起度に基づいて数値化する方法等がある。以下では、前者の一例として、データ群の各データにおけるキーワードのTF×IDF値に基づいて、キーワードを数値化する方法が採用されているものとして説明を進める。ここで、「TF(Term Frequency)」とは、キーワードのデータにおける出現頻度(索引語頻度)であり、「IDF(Inverse Document Frequency)」とは、キーワードを含むデータ数の逆数である。TF×IDF値は、局所的重み付けと大域的重み付けとの積であり、各データにおけるキーワードの重要性を示す指標となっている。
キーワードの数値化(ベクトル化)にあたっては、まず、データDmにおけるキーワードKnのTF×IDF値L(m,n)が算出される。そして、キーワードKnは、算出されたTF×IDF値L(m,n)を用いて、式1に示すNc次元のベクトルで表現される。
Figure 2005251091
式1に示すベクトルの各成分における表記m∈Gi(i=1,2,・・・,Nc−1)は、分類項目Giに属するデータDmについて、TF×IDF値L(m,n)を加算することを意味する。換言すれば、式1に示すベクトルの各成分は、TF×IDF値L(m,n)をデータが属する分類項目ごとに集計したものに相当する。このようにして得られたベクトルKnの組は正規化される。具体的には、式2に示す行列の要素の最大値が1、最小値が0となるように正規化が行われる。
Figure 2005251091
この正規化後においては、キーワードを表現したベクトル(以下では、「キーワードベクトル」とも称する)の成分の大きさは、当該成分に対応する分類項目における当該キーワードの重要度、換言すれば関連性の程度となっている。
正規化後のNk個のベクトルは図7に例示す自己組織化マップSOMに入力され、キーワードのカテゴライズに利用される。自己組織化マップSOMの入力層ILはNc個(図7では、Nc=4の例が示されている)のユニットU11〜U14から構成される。ユニットU11〜U14は,自己組織化マップSOMの入力データとなるキーワードベクトルKiの各成分に対応している。自己組織化マップSOMの出力層OLはNg個(図7では、Ng=9の例が示されている)のユニットU21〜U29から構成される。ユニットU21〜U29は、一辺に(Ng)1/2個のユニットが存在するマトリクス状に配置される。出力層OLの各ユニットU21〜U29は、入力層ILの各ユニットU11〜U14と伝搬係数Sijで結合されている。ここで、インデックスiは入力層ILのユニット(キーワードベクトルKnの成分)を特定するインデックスであり、インデックスjは出力層OLのユニット(分類項目)を特定するインデックスである。
なお、上述の説明では、キーワードがデータストア11に追加されるとしたが、キーワードに代えて複数の単語からなるキーセンテンスがデータストア11に格納されるようにしてもよい。
○クエリ処理エンジン;
図8はクエリ処理エンジン13の機能構成を示すブロック図である。
クエリ処理エンジン13は、クエリ解析部131を備える。クエリ解析部131は、日本語解析エンジン17を利用してクエリからキーワードを生成し、キーワード検索エンジン132およびデータ検索エンジン15へ出力する。クエリ解析部131で生成されたキーワードは、データ群111およびキーワード群112とは異なる新規データの一例となっている。
キーワード検索エンジン132は、データストア11にアクセスして、同一分類キーワードを取得する。例えば、キーワードの分類が図4に示す状態である場合、キーワード検索エンジン132は、キーワードK8が与えられると、キーワードK20,・・・,K50,・・・を同一分類キーワードとしてデータストア11から取得する。換言すれば、キーワード検索エンジン132は、分類されたキーワード群112に基づいて(キーワード群112の分類の情報を利用して)、与えられたキーワードが属する分類項目を特定している。すなわち、データ検索装置1は、キーワード群112の分類の情報を介して、データ群111の分類の情報を、生成したキーワードの処理(同一分類キーワードの取得やヒントの生成)に有効に利用可能となっている。なお、同じ分類項目に属するキーワードは、データ群111に対する重要度の傾向が類似しているので、同一分類キーワードをクエリに用いることにより適切な検索結果が得られる可能性は高いと言える。
ヒント生成部133は、与えられた同一分類キーワードに基づいてクエリに関する補助情報であるヒントを生成して、ユーザインターフェース12へ出力する。具体的には、ヒント生成部133は、与えられたキーワードを含むクエリを入力するように操作者に促すヒントを生成する等の処理を行い、ユーザインターフェース12へ出力する。このようなヒントの実例は後述する実施例で示される。これにより、操作者は、同一分類キーワードを利用して適切な検索結果を導くクエリをデータ検索装置1へ入力可能となる。
○追加データ処理エンジン;
図9は、追加データ処理エンジン14の機能構成を示すブロック図である。
追加データ処理エンジン14は、追加データ解析部141および追加データ分類部142を備える。
追加データ解析部141は、日本語解析エンジン17を利用して追加データからキーワードを生成し、追加データ分類部142へ出力する。追加データ解析部141で生成されたキーワードは、データ群111およびキーワード群112とは異なる新規データの一例となっている。
追加データ分類部142は、データベースにアクセスして、分類されたキーワード群112に基づいて(キーワード群112の分類の情報を利用して)、生成したキーワードが属する分類項目を特定し、追加データが属する分類項目を特定した分類項目に決定する。分類項目が決定された追加データは、当該分類項目に従ってデータストア11に格納される。つまり、追加データの分類項目が指定されなくても、データ検索装置1は、追加データに含まれるキーワードを利用して追加データの分類処理を自律的に実行可能となっている。すなわち、データ検索装置1は、データ群111の分類の情報を生成したキーワードの処理(生成元の追加データの分類)に有効に利用可能となっている。
<動作>
○全体動作;
図10は、データ検索装置1の全体の動作フローを示すフローチャートである。
動作フローの最初のステップS1では、検索およびデータ追加のいずれかが選択される。検索が選択された場合、動作フローはステップS2へ移行して検索動作のサブルーチンが実行される。一方、データ追加が選択された場合、動作フローはステップS3へ移行してデータ追加動作のサブルーチンが実行される。ステップS2またはS3終了後、動作フローは終了する。なお、ステップS1における選択の具体的方法は、後述する実施例において例示される。
○検索動作;
図11は、検索動作のサブルーチンの動作フローを示すフローチャートである。
動作フローの最初のステップS101では、クエリ入力の検出が行われる。クエリ入力が検出された場合、動作フローは次のステップS102へ移行する。クエリ入力が検出されない場合、動作フローはステップS101へ戻り、クエリ入力の待機状態が継続する。なお、クエリ入力の具体的方法は、後述する実施例において例示される。
ステップS102では、クエリ解析部131がクエリからキーワードを生成して、キーワード検索エンジン132およびデータ検索エンジン15へ出力する。
続いて、データ検索エンジン15がデータ検索を行い、検索結果をユーザインターフェース12へ出力する(ステップS103)。
さらに続いて、キーワード検索エンジン132がキーワード検索を行い、同一分類キーワードを抽出し(ステップS104)、ヒント生成部133がヒントを生成してユーザインターフェース12へ出力する(ステップS105)。
ステップS105に続くステップS106では、検索結果およびヒントがユーザインターフェース12を用いて操作者に提示される。しかる後に、検索動作のサブルーチンの動作フローが終了する。なお、検索結果およびヒントの提示の具体的方法は後述する実施例において例示される。
以上の動作フローにより、操作者は入力したクエリを用いた検索結果を取得するとともに、当該クエリに関するヒントを得たことになる。
○データ追加動作;
図12は、データ追加動作のサブルーチンの動作フローを示すフローチャートである。
動作フローの最初のステップS201では、追加データの入力の検出が行われる。追加データの入力が検出された場合、動作フローは次のステップS202へ移行する。追加データの入力が検出されない場合、動作フローはステップS201へ戻り、追加データの入力の待機状態が継続する。なお、追加データの入力の具体的方法は、後述する実施例において例示される。
ステップS202では、追加データ解析部141が追加データからキーワードを生成して、追加データ分類部142へ出力する。
続いて、追加データ分類部142がデータ検索を行い与えられたキーワードが属する分類項目を特定し(ステップS203)、追加データ分類部142が特定した分類項目に基づいて追加データをデータストア11に格納する(ステップS204)。しかる後に、動作フローはステップへ移行する。
ステップS201〜S204により、データ検索装置1は、分類項目が指定されない追加データを自動的に分類してデータストア11に格納したことになる。
ステップS205は、キーワードの分類のためのデータ処理のサブルーチンである。ステップS205終了後、データ追加動作のサブルーチンの動作フローは終了する。
○データ処理動作;
図13は、データ処理動作のサブルーチンの動作フローを示すフローチャートである。
動作フローの最初のステップS301では、キーワード生成部161がデータ群111の各データからキーワードを生成する。
続いて、キーワード分類部162は所定の方法で伝搬係数Sijを初期化し、伝搬係数Sijの修正回数sを初期化(s=0)する(ステップS302)。
さらに続いて、キーワード分類部162は、全てのキーワードKnをベクトル化して(ステップS303)、自己組織化マップSOMへ順次入力する(ステップS304)。
ステップS304に続くステップS305では、キーワード分類部162は、伝搬係数Sijの修正を行う(ステップS305)。具体的には、キーワード分類部162は、出力層OLの全てのユニットU21〜U29について、入力層ILのユニットU1〜U4が保持する値(キーワードベクトルKnの成分値Kni)と伝搬係数Sijとの誤差の総和T(式3参照)を計算し、誤差の総和Tが最小となる勝者ユニットを特定する。
Figure 2005251091
そして、キーワード分類部162は、勝者ユニットを中心とする近傍領域内のユニットについて、誤差の総和Tが小さくなるように一定の割合で伝搬係数Sijを修正する。これにより、自己組織化マップSOMにおける学習が進行したことになる。
続いて、修正回数sがインクリメント(s←s+1)される(ステップS306)。
続くステップ307では、修正回数sが所定回数Nに達しているかどうかによって分岐処理が行われる。達している場合は動作フローはステップS309へ移行する。一方、達していない場合は動作フローはステップS308へ移行する。
ステップ308では、誤差修正割合が削減されるとともに近傍領域が縮小され、動作フローはステップS304へ戻る。これにより、修正回数sが所定回数Nに達するまで、学習の進行を順次に抑制しつつ、自己組織化マップSOMの学習が継続されることになる。
自己組織化マップSOMの学習終了後のステップS309では、キーワード分類部162がキーワードベクトルknを自己組織化マップSOMへ入力する。さらに、キーワード分類部162は、ステップS304と同様に勝者ユニットを特定する(ステップS311)。この勝者ユニットに対応する分類項目がキーワードknが属する分類項目となる。
ステップS312では、ステップS311で決定された分類項目に基づいてキーワードknがデータストア11に格納される。
このような動作フローにより、データ群111から抽出されたキーワード群112がデータ群111の分類の情報に基づいて自動的に分類されたことになる。
実施例1は、データ検索装置1の論文検索システムへの適用例を示す実施例である。実施例2は、データ検索装置1の医療支援システムへの適用例を示す実施例である。論文検索システムおよび医療支援システムでは、データストア11に格納されるデータ群111およびキーワード群112が、各々のシステムが処理対象とする具体的なデータ群およびキーワード群となっている。また、論文検索システムおよび医療支援システムでは、各々のシステムの利用目的に適合するユーザインターフェース12が提供される。以下では、これらのデータ群111、キーワード群112およびユーザインターフェース12について説明する。なお、実施例1および実施例2は、データ検索装置1の適用方法の例示に過ぎない。したがって、データ検索装置1の適用方法や適用対象は、実施例1および実施例2によっては制限されず、特許請求の範囲の記載内で任意に変更可能である。
[実施例1]
実施例1は論文検索システムに関する。論文検索システムでは、データ群111が、医学分野の学術論文(以下では、「論文」とも称する)に係るテキストデータ(以下では、「論文データ」とも称する)の集合となっている。論文検索システムは、入力されたクエリを用いてデータ群111に対する検索を行い、当該クエリに合致する論文データを検索結果として操作者に提示する。また、論文検索システムは、入力された追加論文データをデータストア11に格納する。
さらに、論文検索システムは、検索実行時に、所望の論文データが検索出力される可能性を高めるためのクエリ変更のヒントを操作者に提示する。また、論文検索システムは、論文データ追加時に分類項目が指定されなくても、当該論文データが属する分類項目を決定可能である。これらの操作者の支援機能は、複数の分類項目群に分類されたデータ群11の分類の情報を利用して実現される。
論文検索システムでは、データ群11を分類するための分類基準には、著者氏名、対象部位、病名およびセッションが採用される。ただし、これらの分類基準は例であり、これらの分類基準を他の分類基準に変更することや、これらの分類基準に他の分類基準を追加することも妨げられない。
論文検索システムでは、ユーザインターフェース12として、ディスプレイ47への表示を利用したGUI(Graphical User Interface)が採用される。このため、論文検索システムの操作者は、ディスプレイ47に表示された画面を参照しながら入力デバイス45で所定の操作を行うことにより、論文検索システムに指示を付与可能である。
<画面遷移>
図14は、論文検索システムのディスプレイ47に表示される画面の遷移を示す画面遷移図である。以下では、図14の画面遷移図および図15〜図22の画面例を参照しながら、論文検索システムの動作を説明する。
○メニュー画面;
図15に例示するメニュー画面SC11は、論文検索システム起動時に表示される。メニュー画面SC11には、検索画面SC12および登録画面SC13への遷移リンク201および202が含まれる。遷移リンク201および202のいずれかを選択する操作がメニュー画面SC11で行われると、ディスプレイ47の表示は選択された遷移リンクに対応する画面(検索画面SC12または登録画面SC13)へ切り替わる。なお、メニュー画面SC11における遷移リンクの選択が図10のフローチャートのステップS1の選択に対応する。
○検索画面;
図16に例示する検索画面SC12は、クエリ入力用の画面である。検索画面SC12は、クエリ入力用のテキストエリア211および検索ボタン212を含む。操作者は、テキストエリア211へのクエリ入力後に検索ボタン212を押下することにより、当該クエリを用いた論文データ検索を論文検索システムに実行させる。すなわち、論文検索システムでは、検索画面SC12において検索ボタン212の押下が検出されると、図11のフローチャートに従って論文データ検索およびヒント生成が行われる。論文データ検索およびヒント生成の処理終了後、ディスプレイ47の表示は検索結果一覧表示画面SC14に切り替わる。なお、検索ボタン212の押下は、図11のフローチャートのステップS101のクエリ入力に対応している。
○検索結果一覧表示画面;
図17に例示する検索結果一覧表示画面SC14は、検索結果の一覧表示を行う画面である。検索結果一覧表示画面SC14は、検索結果一覧テーブル221および再検索ボタン223を含む。検索結果一覧テーブル221には、検索出力された論文のタイトルおよびカテゴリのリストが表示される。リストアップされた各論文のタイトル222a〜222gは、各論文に対応する詳細情報表示画面SC15への遷移リンクでもある。したがって、操作者は、所望の論文に対応する遷移リンクを選択することにより、所望の論文の詳細情報表示画面SC15をディスプレイ47に呼出可能である。また、再検索ボタン223は、再検索画面SC16の呼出指示を論文検索システムに与えるためのGUI指示部材である。
○詳細表示画面;
図18に例示する詳細情報表示画面SC15は、検索結果一覧表示画面SC14で選択された遷移リンクに対応する論文の詳細情報を表示する画面である。詳細情報表示画面SC15は、詳細表示テーブル231、再検索ボタン232および全文表示ボタン233を含む。詳細表示テーブル231には、タイトル、カテゴリ、著者、キーワード、妙録およびページ数が表示される。再検索ボタン232および全文表示ボタン233は、それぞれ、再検索画面SC16および全文表示画面SC17の呼出指示を論文検索システムに与えるためのGUI指示部材である。
○全文表示画面;
図19に例示する全文表示画面SC17は、詳細情報表示画面SC15で表示された論文の全文を表示する画面である。当該全文は、書式情報を含まないプレーンテキスト、書式情報を含むテキストまたはイメージ等で記述されたドキュメントであり、PDF(登録商標)等であってもよい。全文表示画面SC17は、論文の全文241および戻るボタン242を含む。戻るボタン242は、詳細情報表示画面SC15の呼出指示を論文検索システムに与えるためのGUI指示部材である。
○再検索画面;
図20に例示される再検索画面SC16は、再検索のクエリ入力用の画面である。再検索画面SC16は、検索画面SC12と同様のテキストエリア251および検索ボタン252を含む。テキストエリア251には前回の検索で用いたクエリ251aがデフォルトで表示されるが、操作者は所定の操作により当該クエリ251aを編集可能である。
さらに、再検索画面SC16のテキストエリア251の下方には、クエリ変更のヒントHT1〜HT5が表示される。ヒントHT1〜HT5は、前回の検索で使用したクエリ251aに含まれるキーワード(「青木」、「大腸」、「ガン」、「再発率」および「大腸ガン」)の変更を促すヒントとなっている。
ヒントHT1は、著者氏名の分類項目に係る、「青木」の同一分類キーワード(「青木知美」および「青木 豊」)から生成されたヒントである。ヒントHT2は、対象部位の分類項目に係る、「大腸」の同一分類キーワード(「結腸」および「直腸」)から生成されたヒントである。ヒントHT3は、病名の分類項目に係る、「ガン」の同一分類キーワード(「悪性腫瘍」、「腫瘍マーカー」および「放射線」)から生成されたヒントである。ヒントHT4は、セッションの分類項目に係る、「再発率」の同一分類キーワード(「生存率」および「余命」)から生成されたヒントである。ヒントHT5は、セッションの分類項目に係る、「大腸ガン」の同一分類キーワード(「大腸ガン」および「大腸 ガン」)から生成されたヒントである。ヒントHT1〜HT5に含まれるキーワードは、前回の検索で使用したクエリに含まれるキーワード(以下では、「前回キーワード」とも称する)とデータ群111における出現傾向が類似しているので、前回キーワードの代替キーワードとして利用可能である。したがって、操作者はヒントを参照してクエリを変更することにより、より適切な検索出力を得る可能性がある。
さらに、再検索画面SC16は終了ボタン253を含む。終了ボタン253は、メニュー画面SC11への移行を論文検索システムに指示するためのGUI指示部材である。操作者は、終了ボタン253を押下することにより、ディスプレイ47の表示を再びメニュー画面SC11に切り替えることができる。
○登録画面;
図21に例示する登録画面SC13は、論文登録用の画面である。登録画面SC13は、テキストボックス261、参照ボタン262および登録ボタン263を含む。操作者は、テキストボックス261へ登録論文のファイル場所(パス)を入力後(あるいは、ファイル参照ボタン262を押下して登録論文を選択するGUI操作後)に登録ボタン263を押下することにより、論文データのデータストア11への登録を論文検索システムに実行させる。すなわち、登録画面SC13において登録ボタン263の押下が検出されると、テキストボックス261に入力されたパスの論文データが、図12に示すフローチャートに従って追加データとしてデータストア11に格納される。なお、図21には、論文データの分類項目を指定するためのGUI操作部材は含まれないが、論文検索システムは入力された論文データを自動的に分類可能である。また、登録ボタン263の押下は、図12のフローチャートのステップS201における追加データ入力に対応する。
登録ボタン263の押下後、論文の登録が完了するとディスプレイ47の表示は登録成功画面SC18へ切り替わる。
○登録成功画面;
図22に例示される登録成功画面SC18は、論文登録の成功を操作者に通知する画面である。
登録成功画面SC18には、操作者に論文登録の成功を通知する文字列271と、登録画面SC13およびメニュー画面SC11への遷移リンク272および273とが含まれる。遷移リンク272および273のいずれかを選択する操作が登録成功画面SC18で行われると、ディスプレイ47の表示は選択された遷移リンクに対応する画面へ移行する。
[実施例2]
実施例2は医療支援システムに関する。医療支援システムでは、データ群111が、医療従事者が医療行為実行時に経験したインシデントに係るテキストデータ(以下では、「インシデントデータ」とも称する)の集合となっている。医療支援システムは、入力されたクエリを用いてデータ群111に対する検索を行い、当該クエリに合致するインシデントデータを検索結果として操作者に提示する。また、医療支援システムは、入力された追加インシデントデータをデータストア11に格納する。医療支援システムにおけるクエリはコンディション入力画面SC21のテンプレートを用いて医療従事者が入力したコンディション情報に基づいて生成される。
さらに、医療支援システムは、検索実行時に、当該クエリに含まれるキーワードと関連が深いキーワードをヒントとして操作者に提示する。また、医療支援システムは、インシデントデータ追加時に分類項目が指定されなくても、当該インシデントデータが属する分類項目を決定可能である。これらの操作者の支援機能は、複数の分類項目群に分類されたデータ群111の分類の情報を利用して実現される。
データ群111を分類するための分類基準には、インシデントを経験した医療従事者の所属科(内科、外科および耳鼻科等)および経験年数(一般的には属性)と、インシデントの発生時刻と、インシデント発生時の天候とが採用される。ただし、これらの分類基準は例であり、これらの分類基準を他の分類基準に変更することや、これらの分類基準に他の分類基準を追加することも妨げられない。
医療支援システムでは、論文検索システムと同様に、ユーザインターフェース12として、ディスプレイ47への表示を利用したGUIが採用される。このため、医療支援システムの操作者は、ディスプレイ47に表示された画面を参照しながら入力デバイス45で所定の操作を行うことにより、医療支援システムに指示を付与可能である。
<画面遷移>
図23は、医療支援システムのディスプレイ47に表示される画面の遷移を示す画面遷移図である。以下では、図23の画面遷移図および図24〜図29の画面例を参照しながら、医療支援システムの動作を説明する。
○メニュー画面;
図24に例示するメニュー画面SC22は、医療支援システム起動時に表示される。メニュー画面SC22は、コンディション入力画面SC21およびインシデント登録画面SC23への遷移リンク301および302を含む。遷移リンク301および302のいずれかを選択する操作がメニュー画面SC22で行われると、ディスプレイ47の表示は選択された遷移リンクに対応する画面(コンディション入力画面SC21またはインシデント登録画面SC23)へ切り替わる。なお、メニュー画面SC22における遷移リンクの選択が図10のフローチャートのステップS1の選択に対応する。
○コンディション入力画面;
図25に例示するコンディション入力画面SC21は、医療従事者のコンディション入力用の画面である。
コンディション入力画面SC21は、複数の入力項目の枠組みを有するテンプレートとなっている。テンプレートには、インシデントを経験した医療従事者の所属科および経験年数と、インシデントの発生時刻と、インシデント発生時の天候と、インシデントに係る医療行為(図25では、看護師が患者に対して実行するケアとなっている)の内容とを入力するためのテキストエリア311〜315および検索ボタン316を備える。ただし、図25に例示する入力項目は例であり、当該入力項目に他の入力項目を追加することや当該入力項目を他の入力項目に変更することも妨げられない。操作者は、テキストエリア311〜315への入力後に検索ボタン316を押下することにより、当該入力内容に対応するインシデントデータの検索を医療支援システムに実行させる。すなわち、コンディション入力画面SC21において検索ボタン316の押下が検出されると、図11のフローチャートに従ってインシデントデータ検索およびヒント生成が行われる。なお、医療支援システムでは、キーワードはテンプレートを用いて入力された複数の文字列から生成される。キーワードの生成にあたっては日本語解析に加えて、テンプレートにおける入力項目の情報も利用される。インシデントデータ検索およびヒント生成後、ディスプレイ47の表示は検索結果一覧表示画面SC24に切り替わる。なお、検索ボタン316の押下は、図11のフローチャートのステップS101のクエリ入力に対応する。
○検索結果一覧表示画面;
図26に例示する検索結果一覧表示画面SC24は、検索結果の一覧表示を行う画面である。検索結果一覧表示画面SC24は、検索結果一覧321および関連キーワード一覧322を含む。関連キーワード一覧322には、クエリに関するヒントである関連キーワードのリストが表示される。ヒントは、キーワード検索エンジン132が抽出した同一分類キーワードである。すなわち、医療支援システムのヒント生成部133は、与えられた同一分類キーワードに特別な変換を行わないでユーザインターフェース12へ出力している。
検索結果一覧321には、検索出力されたインシデントデータのケア内容のリストが表示される。検索出力は、コンディション入力画面SC21の入力から直接生成されたキーワードと当該キーワードの同一分類キーワードを用いて検索を行った検索出力となっている。このように同一分類キーワード(関連キーワード)をも検索に利用することにより、重要なインシデントデータが検索出力から抜け落ちることを防止可能である。なお、検索結果一覧でリストアップされた各インシデントデータのケア内容は、各インシデントデータに対応する詳細情報表示画面SC25への遷移リンクでもある。したがって、操作者は、所望のインシデントデータに対応する遷移リンクを選択することにより、所望のインシデントデータの詳細情報表示画面SC25をディスプレイ47に呼出可能である。
また、検索結果一覧表示画面SC24は、戻るボタン323を含む。戻るボタン323は、コンディション入力画面SC21の呼出指示を医療支援検索システムに与えるためのGUI指示部材である。
○詳細表示画面;
図27に例示する詳細情報表示画面SC25は、検索結果一覧表示画面SC24で選択された遷移リンクに対応するインシデントデータの詳細情報を表示する画面である。詳細情報表示画面SC25は、詳細表示テーブル331および戻るボタン332を含む。詳細表示テーブル331には、インシデントを経験した医療従事者の所属科および経験年数と、インシデントの発生時刻と、インシデント発生時の天候と、インシデントに係る医療行為の内容と、インシデントの内容とが表示される。戻るボタン332は、検索結果一覧表示画面SC24の呼出指示を医療支援システムに与えるためのGUI指示部材である。
○インシデント登録画面;
図28に例示するインシデント登録画面SC23は、インシデント登録用の画面である。インシデント登録画面SC23は、コンディション入力画面SC21と同様に、テンプレートとなっている。テンプレートには、詳細表示画面SC25と同じ項目の入力のためのテキストエリア341〜346を含む。操作者は、テキストエリア341〜346への入力後に登録ボタン347を押下することにより、インシデントデータのデータストア11への追加を医療支援システムに実行させる。すなわち、インシデント登録画面SC23において登録ボタン347の押下が検出されると、テンプレートに入力されたインシデントデータが追加データとしてデータストア11に格納される。なお、図28には、インシデントデータの分類項目を指定するためのGUI操作部材は含まれないが、医療支援システムは入力されたインシデントデータを自動的に分類可能である。
登録ボタンの押下後、インシデントデータの登録が完了するとディスプレイ47の表示は登録成功画面SC26へ移行する。また、登録ボタン347の押下は、図12のフローチャートのステップS201における追加データ入力に対応する。
○登録成功画面;
図29に例示される登録成功画面SC26は、インシデント登録の成功を操作者に通知する画面である。登録成功画面SC26には、操作者にインシデントデータ登録の成功を通知するための文字列351と、戻るボタン352とが含まれる。戻るボタン352の押下操作が登録成功画面SC26で行われると、ディスプレイ47の表示はインシデントデータ登録画面SC23へ移行する。
データ検索装置1を実現するためのコンピュータ4のハードウエア構成を示すブロック図である。 データ検索装置1の全体の機能構成を示すブロック図である。 データ群111{D0,D1,・・・,Dp}が分類項目G0,G1,・・・,GNc-1に分類された状態の例を示す図である。 キーワード群112{K0,K1,・・・,KNk}が分類項目G0,G1,・・・,GNc-1に分類された状態の例を示す図である。 日本語解析エンジン17の機能構成を示すブロック図である。 データ処理エンジン16の機能構成を示すブロック図である。 自己組織化マップSOMを例示する図である。 クエリ処理エンジン13の機能構成を示すブロック図である。 追加データ処理エンジン14の機能構成を示すブロック図である。 データ検索装置1の全体の動作フローを示すフローチャートである。 検索動作のサブルーチンの動作フローを示すフローチャートである。 データ追加動作のサブルーチンの動作フローを示すフローチャートである。 データ処理動作のサブルーチンの動作フローを示すフローチャートである。 論文検索システムのディスプレイ47に表示される画面の遷移を示す画面遷移図である。 メニュー画面SC11を例示する図である。 検索画面SC12を例示する図である。 検索結果一覧表示画面SC14を例示する図である。 詳細情報表示画面SC15を例示する図である。 全文表示画面SC17を例示する図である。 再検索画面SC16を例示する図である。 登録画面SC13を例示する図である。 登録成功画面SC18を例示する図である。 医療支援システムのディスプレイ47に表示される画面の遷移を示す画面遷移図である。 メニュー画面SC22を例示する図である。 コンディション入力画面SC21を例示する図である。 検索結果一覧表示画面SC24を例示する図である。 詳細情報表示画面SC25を例示する図である。 インシデント登録画面SC23を例示する図である。 登録成功画面SC26を例示する図である。
符号の説明
IL 入力層
OL 出力層
U11〜U14,U21〜U29 ユニット
SOM 自己組織化マップ
HT1〜HT5 ヒント

Claims (22)

  1. データ処理装置であって、
    複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する生成手段と、
    分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類手段と、
    前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定手段と、
    を備えることを特徴とするデータ処理装置。
  2. 請求項1に記載のデータ処理装置において、
    前記第1データ群の各データがテキストデータであり、
    前記第2データ群の各データが前記第1データ群のテキストデータの索引に相当するテキストデータであることを特徴とするデータ処理装置。
  3. 請求項2に記載のデータ処理装置において、
    前記第1データ群が文献に係るデータ群であり、前記第2データ群が前記文献の索引に係るデータ群であることを特徴とするデータ処理装置。
  4. 請求項2に記載のデータ処理装置において、
    前記第1データ群が医療行為によって発生したインシデントに係るデータ群であり、前記第2データ群が前記インシデントの索引に係るデータ群であることを特徴とするデータ処理装置。
  5. 請求項1ないし請求項4のいずれかに記載のデータ処理装置において、
    前記第2データ群が前記第1データ群の部分データであることを特徴とするデータ処理装置。
  6. 請求項2に記載のデータ処理装置において、
    前記生成手段が、
    前記テキストデータに記述された文字列を単語群に分割する形態素解析手段と、
    前記単語群から前記第2データ群を構築する構築手段と、
    を備えることを特徴とするデータ処理装置。
  7. 請求項6に記載のデータ処理装置において、
    前記構築手段が、
    前記単語群の中の重複語を除去する手段を有することを特徴とするデータ処理装置。
  8. 請求項6または請求項7に記載のデータ処理装置において、
    前記構築手段が、
    所定の不要語特定規則に従って前記単語群の中の不要語を特定し、当該不要語を除去する手段を有することを特徴とするデータ処理装置。
  9. 請求項6ないし請求項8のいずれかに記載のデータ処理装置において、
    前記分類手段が、
    前記第1データ群の各データにおける前記第2データ群の各データの重みを所定の重み算出規則に従って算出する算出手段を備え、
    前記第2データ群の分類に前記重みを利用することを特徴とするデータ処理装置。
  10. 請求項9に記載のデータ処理装置において、
    前記重みが所定の重要度判定規則によって定まるデータの重要度であることを特徴とするデータ処理装置。
  11. 請求項10に記載のデータ処理装置において、
    前記重要度が、索引語の出現頻度と、当該索引語を含む文書の数の逆数との積であることを特徴とするデータ処理装置。
  12. 請求項1ないし請求項11のいずれかに記載のデータ処理装置において、
    前記分類手段が、
    前記第2データ群の各データを、前記第1データ群の分類項目に対応する成分を有するベクトルへ変換するベクトル化手段を備え、
    前記第2データ群の分類に前記ベクトルを利用することを特徴とするデータ処理装置。
  13. 請求項12に記載のデータ処理装置において、
    前記第2データ群の各データについて、前記第1データ群の各分類項目への関連性の程度を表現した重みに基づいて、前記ベクトルの各成分をそれぞれ定めることを特徴とするデータ処理装置。
  14. 請求項1ないし請求項13のいずれかに記載のデータ処理装置において、
    前記分類手段が、分類にニューラルネットワークを使用することを特徴とするデータ処理装置。
  15. 請求項14に記載のデータ処理装置において、
    前記ニューラルネットワークが自己組織化マップであることを特徴とするデータ処理装置。
  16. 請求項1ないし請求項15のいずれかに記載のデータ処理装置において、
    前記新規データが前記第1データ群に追加されるデータであることを特徴とするデータ処理装置。
  17. 請求項1ないし請求項15のいずれかに記載のデータ処理装置において、
    前記新規データが前記第1データ群に対する検索に使用されるクエリから生成されることを特徴とするデータ処理装置。
  18. 請求項17に記載のデータ処理装置において、
    前記新規データが属する分類項目に属する他の前記第2データ群のデータを抽出する抽出手段をさらに備えることを特徴とするデータ処理装置。
  19. 請求項18に記載のデータ処理装置において、
    前記新規データに関する補助情報を出力する出力手段をさらに備え、
    前記補助情報が前記新規データが属する分類項目に含まれる他の前記第2データ群のデータに基づいて作成されることを特徴とするデータ処理装置。
  20. 請求項1に記載のデータ処理装置において、
    前記新規データを操作者に入力させる入力手段をさらに備えることを特徴とするデータ処理装置。
  21. データ処理方法であって、
    複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する工程と、
    分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類行程と、
    前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定行程と、
    を備えることを特徴とするデータ処理方法。
  22. データ処理プログラムであって、前記プログラムのコンピュータによる実行は、前記コンピュータに、
    複数の分類項目を含む分類項目群に分類された第1データ群から第2データ群を生成する生成工程と、
    分類された前記第1データ群に基づいて、前記分類項目群に前記第2データ群を分類する分類行程と、
    前記第1データ群および前記第2データ群に含まれない新規データが属する前記分類項目群の中の分類項目を、分類された前記第2データ群に基づいて決定する決定行程と、
    を実行させることを特徴とするデータ処理プログラム。
JP2004064172A 2004-03-08 2004-03-08 データ処理装置、データ処理方法およびデータ処理プログラム Pending JP2005251091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004064172A JP2005251091A (ja) 2004-03-08 2004-03-08 データ処理装置、データ処理方法およびデータ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004064172A JP2005251091A (ja) 2004-03-08 2004-03-08 データ処理装置、データ処理方法およびデータ処理プログラム

Publications (1)

Publication Number Publication Date
JP2005251091A true JP2005251091A (ja) 2005-09-15

Family

ID=35031485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004064172A Pending JP2005251091A (ja) 2004-03-08 2004-03-08 データ処理装置、データ処理方法およびデータ処理プログラム

Country Status (1)

Country Link
JP (1) JP2005251091A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310720A (ja) * 2006-05-19 2007-11-29 Toshiba Corp データ処理装置、データ処理方法およびデータ処理プログラム
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
WO2009054215A1 (ja) * 2007-10-23 2009-04-30 Konica Minolta Medical & Graphic, Inc. 情報処理システム、及びプログラム
JP2009098970A (ja) * 2007-10-17 2009-05-07 Fuji Heavy Ind Ltd 安全運転支援システム
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
US8224820B2 (en) 2005-11-17 2012-07-17 Konica Minolta Medical & Graphic, Inc. Information processing system
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ
US8499195B2 (en) 2010-06-16 2013-07-30 Fujitsu Limited Failure cause estimation device and failure cause estimation method
CN104778606A (zh) * 2015-04-10 2015-07-15 北京京东尚科信息技术有限公司 账户结构数据的处理方法和装置
KR20170133692A (ko) * 2016-05-26 2017-12-06 아주대학교산학협력단 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
JP2018512639A (ja) * 2015-02-25 2018-05-17 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 臨床の所見のコンテキストによる評価のための方法及びシステム
KR101899250B1 (ko) * 2017-04-12 2018-09-18 한국과학기술원 환자의 혈액종합검사 결과를 활용한 환자 별 개인화 자동 문서 검색 시스템

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224820B2 (en) 2005-11-17 2012-07-17 Konica Minolta Medical & Graphic, Inc. Information processing system
JP2007310720A (ja) * 2006-05-19 2007-11-29 Toshiba Corp データ処理装置、データ処理方法およびデータ処理プログラム
JP2009015495A (ja) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd キーワード分類装置
JP2009098970A (ja) * 2007-10-17 2009-05-07 Fuji Heavy Ind Ltd 安全運転支援システム
WO2009054215A1 (ja) * 2007-10-23 2009-04-30 Konica Minolta Medical & Graphic, Inc. 情報処理システム、及びプログラム
US8499195B2 (en) 2010-06-16 2013-07-30 Fujitsu Limited Failure cause estimation device and failure cause estimation method
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
JP2012160206A (ja) * 2012-04-27 2012-08-23 Dainippon Printing Co Ltd ブログ収集サーバ
JP2018512639A (ja) * 2015-02-25 2018-05-17 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 臨床の所見のコンテキストによる評価のための方法及びシステム
US11630874B2 (en) 2015-02-25 2023-04-18 Koninklijke Philips N.V. Method and system for context-sensitive assessment of clinical findings
CN104778606A (zh) * 2015-04-10 2015-07-15 北京京东尚科信息技术有限公司 账户结构数据的处理方法和装置
KR20170133692A (ko) * 2016-05-26 2017-12-06 아주대학교산학협력단 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
KR101897080B1 (ko) * 2016-05-26 2018-09-11 아주대학교산학협력단 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
KR101899250B1 (ko) * 2017-04-12 2018-09-18 한국과학기술원 환자의 혈액종합검사 결과를 활용한 환자 별 개인화 자동 문서 검색 시스템

Similar Documents

Publication Publication Date Title
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
Dogan et al. An improved corpus of disease mentions in PubMed citations
US20090265330A1 (en) Context-based document unit recommendation for sensemaking tasks
JP3220886B2 (ja) 文書検索方法および装置
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP6767042B2 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
JP2005251091A (ja) データ処理装置、データ処理方法およびデータ処理プログラム
CN104915406B (zh) 一种面向大众医疗决策的用户搜索方法
JPWO2012176374A1 (ja) 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム
US10650191B1 (en) Document term extraction based on multiple metrics
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
Alvarez et al. Application of the spreading activation technique for recommending concepts of well-known ontologies in medical systems
JP2021072035A (ja) ワークショップ支援システム及びワークショップ支援方法
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4747711B2 (ja) 情報調査装置
KR20090089096A (ko) 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
KR101180470B1 (ko) 기초 온톨로지 기반 한의학 진단 시스템
Zouaoui et al. Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments
JP2009175895A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Gulla et al. An interactive ontology learning workbench for non-experts
JP2002056009A (ja) 文書分類方法および装置
JP2007164462A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
Zhang et al. Automatic patient search for breast cancer clinical trials using free-text medical reports

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106