JP4711556B2 - Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program - Google Patents

Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program Download PDF

Info

Publication number
JP4711556B2
JP4711556B2 JP2001225609A JP2001225609A JP4711556B2 JP 4711556 B2 JP4711556 B2 JP 4711556B2 JP 2001225609 A JP2001225609 A JP 2001225609A JP 2001225609 A JP2001225609 A JP 2001225609A JP 4711556 B2 JP4711556 B2 JP 4711556B2
Authority
JP
Japan
Prior art keywords
classification
item
keyword
sentence
automatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001225609A
Other languages
Japanese (ja)
Other versions
JP2003036261A (en
Inventor
裕三 坪井
Original Assignee
一般社団法人共同通信社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 一般社団法人共同通信社 filed Critical 一般社団法人共同通信社
Priority to JP2001225609A priority Critical patent/JP4711556B2/en
Publication of JP2003036261A publication Critical patent/JP2003036261A/en
Application granted granted Critical
Publication of JP4711556B2 publication Critical patent/JP4711556B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体、文章自動分類方法及び文章自動分類装置に関し、特に、文章に含まれるキーワードを抽出し、抽出したキーワードの分類項目毎の出現頻度を集計し、予め分類項目毎に設定された係数を乗じる重み付けを行うことにより、該当する分類項目を算出して自動分類を行う技術に関する。更には、文章の付属情報をも算出し細分類が可能な技術に関する。
【0002】
【従来の技術】
従来の文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体、文章自動分類方法及び文章自動分類装置に関する技術としては、分類するカテゴリを特徴付ける特徴パターンを利用して分類するもの(特開2000−222431)、文章に付与されたキーワードの頻度を自動計算すると共にキーワード間の関連付けを行い、頻度が大きいキーワードに上位ディレクトリを付与し、このキーワードに関連するキーワードを下位ディレクトリとして作成しキーワードのツリー構造を得て、夫々の文章をディレクトリのツリー構造によって分類する技術(特開2000−231560)が提案されている。
【0003】
更に、コーパスを用いて文章の意味属性が付与され既分類の文章の意味属性との類似度により文書を分類する技術(特開2000−339310)、分類する文章及び属性情報を入力し、文章からキーワードを抽出し、分類グループ毎にキーワードと属性情報の組合せからなる分類ルールとキーワード又は属性情報の類似度を算出して最も類似する分類ルールに対応するグループに分類する技術(特開2001−60199)、1以上の予め登録されたキーワードが記事中に含まれているかを照合し、キーワードを含む記事を当該キーワード単位に設けられた所定の格納領域に保存する技術(特開2001−109772)等がある。
【0004】
しかし、これらの従来例では分類するグループを限定すれば分類不可能の文章が増え、反対にすべての文章を分類しようとした場合には分類グループが極めて多くなってしまうという欠点や限定されたツリー構造により分類するので、一の文章が多数の分類グループに分類されるという欠点があった。又、分類を繰り返すうちに対比するパターン、キーワード或いは文章が増加し、分類処理に時間がかかるという欠点もあった。
【0005】
又、キーワードの出現頻度或いは出現の有無のみをそのまま分類に反映させているため夫々のキーワードの分類グループに対する重要性が考慮されなかったり、キーワードを補完する場合には一定のキーワードが過度に重要視されてしまい、精度の高い分類を行うことができないという欠点があった。
【0006】
更に、従来の技術では分類のグループからは分類された文章の主題、関連分野、大まかな内容、関連する国、地域、企業等を把握することは困難であり、分類後の文章の活用が円滑に行えないという欠点もあった。又、分類された文書を分類毎に格納された場所から取り出した場合には、すなわち文書を見ただけではその文書がどのような分類に属しているかを把握することができないという欠点があった。
【0007】
【発明が解決しようとする課題】
そこで、本発明は文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易であり、更には当該分類後の文章を分類毎に蓄積、送信可能であって、利用者も文章を解読することなく主題等を把握可能な分類後の文章の活用が円滑に行え、更には簡易な構成のコンピュータ端末を利用しても上述の効果を得られる文章自動分類装置、文章自動分類プログラム、文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体及び文章自動分類方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記課題を解決するための手段として第一に本発明の文章自動分類装置は分類項目と分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、文章を入力する入力手段と、文章を解析し、単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合するキーワード走査手段と、比較照合した結果に重み付をして文章が該当する分類項目を算出する比較演算手段を有することを特徴とする文章自動分類装置である。
【0009】
第二に分類項目と分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、文章を入力する入力手段と、文章を解析し、単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を分類項目ごとに集計するキーワード走査手段と、集計結果に重み付をして文章が該当する分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0010】
第三に格納手段は分類項目毎に係数を設定した分類項目係数テーブルを格納し、比較演算手段は一致したキーワードに対応する分類項目を検索し、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じて重み付をし、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出することを特徴とする文章自動分類装置である。
【0011】
第四に少なくても大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルを格納した格納手段と、属性情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0012】
第五に少なくても大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルと分類項目との特定の関係付けを指定するキーワードを分類項目毎に記述した特定分類項目キーワードテーブルを格納した格納手段と、属性情報及び見出し情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計すると共に、見出し情報から抽出した単語を格納手段に格納された特定分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードを検索するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードに対応する小分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置である。
【0013】
上記第一から第五の構成によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0014】
第六に格納手段にはコード項目とコード項目に関連付けられたキーワードを記述した少なくても一以上のコードテーブルが格納され、キーワード走査手段は抽出した単語を少なくても一以上のコードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計し、比較演算手段は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出することを特徴とする文章自動分類装置である。
【0015】
第七にコードテーブルは都道府県市町村名をキーワードとする都道府県市町村コードテーブル、国名をキーワードとする国名コードテーブル、企業名をキーワードとする企業コードテーブルの内少なくても1つ以上を含むことを特徴とする文章自動分類装置である。
【0016】
上記第六及び第七の構成によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0017】
第八に上記文書自動分類装置は、更に前記比較演算手段により算出された分類の結果の項目を出力する出力手段を有することを特徴とする文書自動分類装置である。
【0018】
第九に上記文書自動分類装置は、更に算出された分類の結果の項目を文章に追記する変換結果格納手段を有することを特徴とする文書自動分類装置である。
【0019】
上記構成によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0020】
第十に上記文書自動分類装置は、更に分類した文章を分類の結果の項目毎に蓄積する蓄積手段又は/及び配信する配信手段を有することを特徴とする文章自動分類装置である。
【0021】
上記構成によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0022】
第十一に上記文書自動分類装置は、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類項目毎の文章分布の統計処理を行う分類結果統計手段と、該統計結果を出力する出力手段を有することを特徴とする文章自動分類装置である。
【0023】
第十二に上記文書自動分類装置は、更に格納手段に格納されたテーブルを出力する出力手段と、テーブルの内容を変更、追加、削除してテーブルを再構成する入力手段と、再構成されたテーブルを格納する格納手段を有することを特徴とする文章自動分類装置である。
【0024】
上記構成によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0025】
第十三にネットワークを介して接続されている編集端末及びサーバーシステムから構成される文章自動分類装置であって、編集端末は文章を入力する入力手段と、入力した文章及び分類処理要求をサーバーシステムに送信する出力手段と、サーバーシステムからの分類処理結果を受信する入力手段とを有し、サーバーシステムは分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルを格納した格納手段と、編集端末からの文章及び分類処理要求を受信する入力手段と、編集端末からの分類処理要求にしたがって該文章を単語に分解、抽出するテキスト解析手段と、抽出された単語を格納手段に格納されたキーワード群と比較照合するキーワード走査手段と、比較した結果に重み付をして該当する分類項目を見出す比較演算手段と、分類処理結果を編集端末に送信する出力手段を有することを特徴とする文章自動分類装置である。
【0026】
上記方法によればネットワークに接続された簡易な構成の端末を利用して文章自動分類を行うことが可能となり、又、キーワード群の再構成等の保守が一度ですむ。
【0027】
第十四に文章を解析し、単語を抽出するテキスト解析処理と、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するキーワード走査処理と、比較照合した結果に重み付をして文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0028】
第十五に文章を解析し、単語を抽出するテキスト解析処理と、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を分類項目毎に集計するキーワード走査処理と、集計した結果に重み付をして文章が該当する分類項目を算出して分類する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムプログラムである。
【0029】
第十六に比較演算処理は一致したキーワードに対応する分類項目を検索し、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じて重み付をし、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する処理であることを特徴とする文章自動分類プログラムである。
【0030】
第十七に属性情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語を少なくても大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0031】
第十八に属性情報及び見出し情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語をキーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0032】
上記第十四から第十八の手段によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0033】
第十九にキーワード走査処理は抽出した単語をキーワードをコード項目に関連付けて記述した少なくても一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計する処理を含み、比較演算処理は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出する処理を含むことを特徴とする文章自動分類プログラムである。
【0034】
第二十にキーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくても1つ以上を含むことを特徴とする文章自動分類プログラムである。
【0035】
上記第十九及び第二十の手段によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0036】
第二十一に上記文書自動分類プログラムは、更に前記比較演算処理により算出された分類の結果の項目を出力する出力処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0037】
第二十二に上記文書自動分類プログラムは、更に算出された分類の結果の項目を文章に追記する変換結果格納処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0038】
上記手段によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0039】
第二十三に上記文書自動分類プログラムは、更に分類した文章を分類の結果の項目毎に蓄積又は/及び配信する処理とを含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0040】
上記手段によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0041】
第二十四に上記文書自動分類プログラムは、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計処理と、該統計結果を出力する処理を含み、これらの処理をコンピュータに実行させることを特徴とする文章自動分類プログラムである。
【0042】
第二十五にキーワード群を出力する処理と、該キーワード群を変更、追加、削除してキーワード群を再構成する処理と再構成したキーワード群を格納する処理を含むことを特徴とする文章自動分類プログラムである。
【0043】
上記手段によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0044】
第二十六に本発明の文章自動分類プログラムを記録したコンピュータ読取り可能な記録媒体は上記第十四から第二十五の手段の文章自動分類プログラムを記録したコンピュータ読取り可能な記録媒体である。
【0045】
第二十七に文章を入力するステップと、該文章を解析し、単語を抽出するステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するステップと、比較照合した結果に重み付をして文章が該当する分類項目を見出すステップとを有することを特徴とする文章自動分類方法である。
【0046】
第二十八に文章を解析し、単語を抽出するテキスト解析ステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合し抽出した単語と一致するキーワードの出現頻度を分類項目毎に集計するキーワード走査ステップと、集計した結果に重み付をして文章が該当する分類項目を見出す比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0047】
第二十九に比較演算ステップは一致したキーワードに対応する分類項目を検索するステップと、分類項目毎のキーワード出現頻度に分類項目毎に設定された係数を乗じに重み付をするステップと、該係数で修正した出現頻度で分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出するステップを有することを特徴とする文章自動分類方法である。
【0048】
第三十に属性情報を有する文章を自動分類する方法であって、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、抽出した単語を少なくても大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0049】
第三十一に属性情報及び見出し情報を有する文章を自動分類する方法であって、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、抽出した単語をキーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法である。
【0050】
上記第二十七から第三十一の構成によれば文章を極めて速やかに且つ高精度に自動に分類することが可能で、更には総ての文章を予め定められた分類グループに分類可能で、分類後のグループによって、当該文章の主題、大まかな内容の把握が容易となる。
【0051】
第三十二にキーワード走査ステップは抽出した単語をキーワードをコード項目に関連付けて記述した少なくても一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計するステップを含み、比較演算ステップは一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出するステップを含むことを特徴とする文章自動分類方法である。
【0052】
第三十三にキーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくても1つ以上を含むことを特徴とする文章自動分類方法である。
【0053】
上記第三十二及び第三十三の方法によれば分類後のグループによって、関連分野、関連する国、地域、企業等の把握が容易となる。
【0054】
第三十四に上記文書自動分類方法は、更に前記比較演算ステップにより算出された分類の結果の項目を出力する分類結果出力ステップとを有することを特徴とする文章自動分類方法である。
【0055】
第三十五に上記文書自動分類方法は、更に算出された分類の結果の項目を文章に追記する変換結果格納ステップとを有することを特徴とする文章自動分類方法である。
【0056】
上記方法によれば利用者も文章を解読することなく主題、関連分野、大まかな内容、関連する国、地域、企業等を把握可能で分類後の文章の活用が円滑に行える。
【0057】
第三十六に上記文書自動分類方法は、更に分類した文章を分類の結果の項目毎に蓄積するステップ又は/及び配信するステップとを有することを特徴とする文章自動分類方法である。
【0058】
上記方法によれば分類後の文章を分類毎に自動に蓄積、送信可能となり、蓄積、送信を人が行うことがなくなるので蓄積場所、送信先に誤りがなくなる。
【0059】
第三十七に上記文書自動分類方法は、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計ステップと、該統計結果を出力するステップとを有することを特徴とする文章自動分類方法である。
【0060】
第三十八にキーワード群を出力するステップと、該キーワード群を変更、追加、削除してキーワード群を再構成するステップと、再構成されたキーワード郡を格納するステップとを含むことを特徴とする文章自動分類方法である。
【0061】
上記方法によれば分類に使用するテーブルを適宜に再構成できるので、文章を極めて高精度に自動に分類することが可能で、分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易となる。
【0062】
第三十九に文章を編集端末に入力するステップと、編集端末が該文章をサーバーシステムに送信して分類処理を要求するステップと、サーバーシステムが文章及び分類処理要求を受信するステップと、サーバーシステムが該文章を解析し、単語を抽出するステップと、抽出した単語をキーワードを分類項目に関連付けて記述したキーワード群と比較照合するステップと、比較照合した結果に重み付けをして該当する項目を見出すステップと、分類処理結果を編集者端末に送信するステップと、編集端末が分類処理結果を受信するステップとを有することを特徴とする文章自動分類方法である。
【0063】
上記方法によればネットワークに接続された簡易な構成の端末を利用して文章自動分類を行うことが可能となり、又、キーワード群の再構成等の保守が一度ですむ。
【0064】
ここで、文章とは電子化された文書であり、コンピュータで処理可能なデータ形式であればそのデータ形式は問はない。そして、分類する文章は日本語に限ることなく、英語等の他の言語で記述されていてもよいことはもちろんである。
【0065】
【発明の実施の形態】
以下、本発明の文書自動分類装置の実施の形態について図に従って詳細に説明する。
図1は本発明の文章自動分類装置の一実施形態のブロック図であり、文章自動分類装置100は入力手段110、テキスト解析手段120、キーワード走査手段130、比較演算手段140、出力手段150、変換結果格納手段160、蓄積手段170、格納手段180、制御手段190から構成されており、パーソナルコンピュータ等で構成することができる。
【0066】
入力手段110はキーボード、スキャナー、モデム、ポインティングデバイス等で構成され、分類する文章を入力する手段である。入力は文章をキーボードにより打ち込んだり、スキャナーにより読み込んだり、モデムを介してネットワークに接続された他の端末から受信すること等により行う。又、出力手段150によって表示された各種キーワード群を変更、追加、削除して再構成し、格納手段に格納を指示し、更には分類の結果の変更、キャンセル等を指示する手段ともなり得る。
【0067】
テキスト解析手段120は入力された文章を解析し、属性情報及び見出し情報を抽出し、属性情報部分以外の文章から単語を抽出する手段である。文章に属性情報、見出し情報が含まれていない場合或いは含まれていても分類に反映させない場合には、属性情報及び見出し情報を抽出することなく文章を解析し、単語を抽出する。文章の解析は単語解析用辞書テーブル181を格納手段18から読み込み、これを参照して形態素解析等により行う。
【0068】
属性情報は文章中の任意の場所例えば文章の一行目に挿入された当該文書の極大雑把な分類のための情報である。見出し情報は文章中の任意の場所例えば文章の二行目に挿入された当該文書のタイトルである。
【0069】
キーワード走査手段130は格納手段180に格納された分類項目キーワードテーブル182を読み込み、テキスト解析手段120で抽出した文章中の単語と比較照合し、抽出した単語と一致したキーワードの出現頻度を小分類項目毎に集計する手段である。又、キーワード走査手段130は格納手段180に格納されたキーワードとなる都道府県市町村名とコード項目たるコード番号を関連付けた都道府県市町村コードテーブル183、キーワードとなる国名とコード項目たるコード記号を関連付けた国名コードテーブル184、キーワードとなる企業名とコード項目たるコード番号を関連付けた企業コードテーブル185等のコードテーブルを読み込み、テキスト解析手段120で抽出した文章中の単語と比較照合し、抽出した単語と一致したキーワードの出現頻度をコード項目毎に集計する手段ともなる。
【0070】
比較演算手段140は一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類の結果を集計して文章が該当する分類項目或いは更にそのコードを算出する手段である。小分類項目のソートに伴い、該小分類項目が属する中分類項目及び大分類項目も同時にソートされることとなる。又、キーワード走査手段130で集計されたコード項目毎のキーワードの出現頻度で国名情報、都道府県市町村等情報、企業情報毎にコード項目をソートし、分類の結果を集計して文章が該当する国名情報、都道府県市町村等情報、企業情報等のコード項目を算出することとしてもよい。
【0071】
出力手段150は前記比較演算手段により算出された分類項目又は/及び付属情報項目を表示或は印字する為のモニター、プリンター等或は文章をネットワークを介して配信するためのモデム等から構成されている。出力手段150は分類項目キーワードテーブル182、各種コードテーブル183,184,185及び係数テーブル186を出力可能である。
【0072】
変換結果格納手段160は分類結果の項目を分類のコードに変換して或いは変換せずにそのまま文章に追記する手段である。蓄積手段170は分類した文章を分類毎に格納手段180に格納、蓄積する手段である。変換結果格納手段160、蓄積手段170は特に設けないこととしてもよい。格納手段180はハードディスク等の磁気記録媒体や光磁気記録媒体などで構成される。制御手段190は上記各手段の処理を制御する手段である。
【0073】
格納手段180は単語解析用辞書テーブル181とキーワードを分類項目毎に記述したキーワード群たる分類項目及び分類項目を示すコードと分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブル182、キーワードをコード項目に関連付けて記述したキーワード群たる都道府県市町村名とコード番号を関連付けた都道府県市町村コードテーブル183、国名とコード記号を関連付けた国名コードテーブル184、企業名とコード番号を関連付けた企業コードテーブル185及び分類項目係数テーブル186を格納している。更に、分類項目、国名情報の項目、都道府県市町村情報の項目、企業情報の項目との特定の関係を指定するキーワードを各項目毎に記述した特定情報キーワードテーブル(図示せず)、分類項目との特定の関係付けを指定するキーワードを分類項目毎に記述した特定分類項目キーワードテーブル(図示せず)を格納することとしてもよい。又、再構成された各種テーブル182,183,184,185,186等を格納する。
【0074】
尚、格納手段180は文章自動分類装置100に内蔵させないで、ネットワークを介して文章自動分類装置100と接続した格納手段、受信手段等を有するサーバー等に記憶させ、該格納手段に格納された各種テーブル181,182,183,184,185,186を使用時に文章自動分類装置100が受信、読み込むものとし、分類済み文章を蓄積する際に該サーバー等に送信して記憶させることとしてもよい。又、分類項目のみ分類する場合には格納手段180には単語解析用辞書テーブル181と分類項目キーワードテーブル182及び分類項目係数テーブル186のみ格納し、都道府県市町村コードテーブル183、国名コードテーブル184、企業コードテーブル185は適宜に削除可能である。この場合には分類項目のみ検索等され、都道府県市町村、国名、企業等の情報は検索、分類されない。又、文章の解析、単語の抽出方法によっては単語解析用辞書テーブル181を有しない場合もある。
【0075】
更に文章自動分類装置100は一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計手段191を有することとしてもよい。統計の結果は出力手段150にて出力する。
【0076】
分類項目キーワードテーブル182は図3に示すように、先ず大項目があり、大項目は中項目に分割され、更に中項目も小項目に分割されて、三層構造に形成されており、キーワードは各小項目毎に関連付けられて記述されている。中分類項目は小分類項目の上位概念であり、大分類項目は中分類項目及び小分類項目の上位概念である。各項目には対応するコードが付されている。尚、必ずしも三層構造にする必要はなく、適宜に一層、二層或いは四層以上としてもよい。都道府県市町村コードテーブル183は図4に示すように都道府県を上層に、各都道府県毎に市町村を下層に二層構造とし、都道府県及び市町村夫々にコード番号が関連付けられている。国名コードテーブル184は図5に示すように国名とコード記号が関連付けられて記述されている。企業コードテーブル185は図6に示すように企業とコード番号が関連付けられて記述されている。
【0077】
分類項目係数テーブル186は属性情報毎に大項目が設定され、各大項目毎に分類項目係数が関連付けられている。特定情報キーワードテーブルは国名情報、都道府県市町村情報、企業情報、との特定の関係を指定するキーワードを記述したテーブルであって、各項目毎にキーワードが関連付けられている。特定分類項目キーワードテーブルは分類項目との特定の関係関係付けを指定するキーワードを記述したテーブルであって、小分類項目ごとにキーワードが関連付けられている。
【0078】
これら各種テーブルは出力手段150であるモニター画面に表示させて、入力手段110たるマウス、キーボード等によって変更、追加、削除が可能であり、変更、追加、削除され再構成された各種テーブルは入力手段110の指示により蓄積手段170によって格納手段180に格納される。
【0079】
又、図2は本発明の文章自動分類装置の他実施形態のブロック図であり、文章自動分類装置200はパーソナルコンピュータ等で構成される編集端末210、ワークステイションやパーソナルコンピュータ等で構成されるサーバーシステム220及び編集端末210とサーバーシステム220を接続するネットワーク230から構成されている。編集端末210はキーボード、スキャナー、モデム、ポインティングデバイス等で構成される文章を入力し更にはサーバーシステム220からの分類情報を受信する為の入力手段211、モニター、プリンター、モデム等分類結果を表示、印字等し、更にはサーバーシステム220に文章及び分類要求を送信する出力手段212、これらの手段を制御する制御手段を少なくても有している。その他変換結果格納手段、蓄積手段を有することとしてもよい。
【0080】
サーバーシステム220は上記文章自動分類装置100と略同様の構成であって、テキスト解析手段221、キーワード走査手段222、比較演算手段223、モデム等から構成される編集端末からの文章等を受信する入力手段224、分類結果等を編集端末210に送信する出力手段225及び単語解析用辞書テーブル241と分類項目キーワードテーブル242、都道府県市町村コードテーブル243、国名コードテーブル244、企業コードテーブル245及び分類項目係数テーブル246を格納した格納手段240、これらの手段を制御する制御手段226から構成されている。その他変換結果格納手段227、蓄積手段228、分類結果統計手段229等を有することとしてもよい。尚、ネットワーク230は有線、無線を問うものではない。
【0081】
次に本発明文書自動分類プログラムの処理手順を説明する。図8は本発明文書自動分類プログラムの処理手順の一実施例を示すフローチャート図である。先ず、分類を行う文書を解析し、該文章から単語を抽出するテキスト解析処理を行うS10。次に抽出した単語をキーワード群と比較照合するキーワード走査処理を行うS20。そして、比較照合した結果に重み付をして文章が該当する分類の項目を算出する比較演算処理を行うS30。次に、分類の項目が見出された後に分類の結果を出力する処理を行うS40。次に、分類の結果の変更の要、不要の判断を要求し、変更を要する場合には文書の変更或は分類の結果の変更を促し、変更を要しない場合又は分類の結果の変更が行われた場合には次のステップへ進める分類確認処理S50をおこなう。そして、分類の結果の項目を文章に追記する変換結果格納処理を行うS60。更に分類した文章を分類された項目毎に蓄積又は/及び配信する処理を行うS70。
【0082】
尚、テキスト解析処理S10、キーワード走査処理S20、比較演算処理S30以外の分類結果出力処理S40、分類確認処理S50、変換結果格納処理S60、蓄積処理又は/及び配信処理S70は必ずしも必要ではなく、これらの処理は省略可能であり、これらの処理の内適宜の処理を選択して処理を進めることとしてもよく、又、適宜に順序を変更して処理を進めることとしてもよい。
【0083】
夫々の処理を詳しく説明すると、テキスト解析処理を行うS10は分類する文章を単語に分解するための単語解析用辞書を読み込みS101、文章から属性情報を抽出しS102、文章から見だし情報を抽出すると共に単語解析用辞書を参照して見だし情報部分の単語を抽出しS103、単語解析用辞書を参照して文章から属性情報及び見だし情報を除いた本文部分の単語を抽出するS104。尚、属性情報の抽出S102、見だし情報の単語の抽出S103、本文部分の単語の抽出S104は必ずしもこの順番である必要はなく、又、同時に処理することとしてもよい。又、分類する文章に属性情報或は見だし情報がない場合或いは分類に反映させない場合等には適宜に属性情報の抽出S102、見だし情報の単語の抽出S103の処理を省略する。尚、属性情報、見だし情報、本文部分はタグ等の制御符号その他の記号、改行等による区切りの情報により分割されており、それぞれの部分が抽出される。
【0084】
尚、テキスト解析処理S10における単語の抽出は上記のように単語解析用辞書を参照して形態素解析に基づいて文章を解析して単語を抽出する他、他の様々な抽出方法を用いることが可能であり、その抽出方法は限定されるものではない。
【0085】
キーワード走査処理を行うS20は、キーワード群を構成する分類項目キーワードテーブル或は分類項目キーワードテーブルに加えて都道府県市町村コードテーブル、国名コードテーブル、企業コードテーブル等の付属の情報の項目テーブルの内少なくても一つを読み込みS201、分類項目キーワードテーブル或は分類項目キーワードテーブルに加えて適宜のコードテーブルをメモリへ展開しS202、抽出した単語を分類項目キーワードテーブル或はコードテーブルのキーワード群と比較照合しS203、抽出した単語と一致した分類項目キーワードテーブルのキーワード群のキーワードの出現頻度を小分類項目毎に集計し、或いは更にコードテーブルのキーワード群のキーワードの出現頻度をコード項目毎に集計するS204。尚、同一キーワードが複数ある場合にもその数をカウントする。又、見出し情報に含まれるキーワードは、カウントしてもよいがしなくてもよい。
【0086】
比較演算処理を行うS30は、抽出した単語と一致したキーワードに対応する大中小の各分類項目、或いは加えて国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を検索しS301、検索された小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付けをし、或いは更にコードテーブル毎に検索されたコード項目毎のキーワードを出現頻度で重み付けしS302、該係数で修正した出現頻度で小分類項目、結果としてその小分類項目が属する大中分類項目をソートし、或いは更にコード項目毎の出現頻度でコード項目をソートしてS303、分類項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目毎に分類の結果を集計して分類項目或いはそのコード項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を算出するS306。
【0087】
勿論、分類項目のみを検索、ソート等の処理をすることとしてもよく、適宜国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目の検索等の処理は省略することとしてもよい。又、重み付けS302は検索された小分類項目毎のキーワード出現頻度に、抽出した属性情報毎の中分類項目または小分類項目毎に設定された係数のうち該小分類項目が属する中分類項目または小分類項目の係数を乗じて重み付けをすることとしてもよく、更には、重み付けは属性情報を有さない或は有しても反映させずに、検索された分類項目毎に、小分類項目毎のキーワード出現頻度に該小分類項目が属する大分類項目毎に設定された或は小分類項目毎又は中分類毎に設定された係数を乗じて重み付けをすることしてもよい。
【0088】
尚、予め分類項目、国名情報、都道府県市町村情報、企業情報のうち少なくても一つとの特定の関係を指定するキーワード群のキーワードと抽出した単語が一致する場合には、キーワードと特定の関係付けが指定されている分類項目、国名情報のコード項目、都道府県市町村情報のコード項目、企業情報のコード項目を特定情報キーワードテーブルを参照して検索しS304、分類の結果に反映させることとしてもよい。この場合にS303で検索された分類項目、国名情報、都道府県市町村情報、企業情報と何れかを優先させて分類結果に反映させるかは任意に設定しうる。更に、見だし情報が本文とは別個に単語抽出処理がされている場合であって、予め分類項目との特定の関係関係付けを指定する特定分類項目キーワードテーブルのキーワード群のキーワードと見だし情報から抽出した単語が一致する場合には、見だし情報部分のキーワードから特定の分類項目を検索するS305こととしてもよい。この場合にS303でソートされ、優先順位がついた分類結果と何れかを優先させて分類結果に反映させるかは任意に設定しうる。
【0089】
尚、分類の結果はソートされた最上位の項目のみを分類結果として算出することとしてもよいが、適宜の上位複数の項目を分類結果として算出することとしてもよい。
【0090】
分類の結果を出力する処理を行うS40は、分類項目キーワードテーブル或は加えて各種コードテーブルを読み込みS401、分類項目キーワードテーブル或は加えて各種コードテーブルを参照して分類結果のコードから項目名を検索しS402、分類結果表示用ダイアログに項目名をセットしS403、分類結果を表示或いは更に印字するS404。ここで、分類結果はソートされた最上位の項目のみを結果として表示してもよいが、適宜の上位複数の項目を分類結果として表示することとしてもよい。
【0091】
分類確認処理S50は分類結果を表示した際に分類結果の変更が必要か否か、分類結果をキャンセルするか否かの判断を要求しS501、変更を要しない場合又は分類結果の変更の指示をうけて変更をした場合S502、次の処理へすすみ、分類結果をキャンセルされる場合には文書の変更を促しS503、分類確認処理S50を行う。
【0092】
変換結果格納処理を行うS60は、分類項目キーワードテーブル或は加えて各種コードテーブルを参照して分類の結果の項目名からテーブル上のコードへ変換しS601、テキスト形式の文章例えばXMLデータの所定のタグ項目に分類結果から変換したコードをセットして文章に追記するS602。勿論、分類の結果をコードに変換することなく分類結果の項目の単語をそのまま追記することとしてもよい。
【0093】
文章を分類毎に蓄積又は/及び配信する処理を行うS70は、分類結果が付与された文章例えばXMLデータを蓄積しS701、又は/及び分類結果が付与された文章を配信するS702。蓄積は予め設けた分類の結果毎の格納領域に分類毎に格納するが、分類の結果毎には格納領域を設けずに、格納することとしてもよい。又、配信は予め定めれた分類に対応した配信先に配信されるが、分類にかかわらずに任意の配信先に配信することとしてもよい。尚、分類の結果毎とは大分類項目毎、中分類項目毎、小分類項目毎、国名情報毎、都道府県市町村情報毎、企業情報毎の何れでもよく、又、これらの内の任意の分類の項目或いは該当する全ての分類の項目に対応させて格納又は配信処理を行うこととしてもよい。
【0094】
更に一定期間の分類の結果を集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果集計処理S801と、該集計結果を出力する処理S802を含ませることは推奨される。
【0095】
更に、分類項目ごとに記述されたキーワード群たる分類項目キーワードテーブル又は/及びコード項目毎に記述したキーワード群たる各種コードテーブルを出力しS901、該キーワード群を変更、追加、削除してS902、キーワード群を再構成するS903、処理とを含ませることは推奨される。
【0096】
又、文書自動分類プログラムを記録したコンピュータ読取り可能な記録媒体としては、以上のような処理をコンピュータに実行させる文章自動分類プログラムを磁気ディスク、磁気テープ、光ディスク等のコンピュータ読取可能な記録媒体に記録したものである。そして、文章自動分類処理を行う場合には該記録媒体をコンピュータに読み込ませて当該プログラムを実行することにより、以上ような文章自動分類処理を行う。
【0097】
次に、本発明自動分類方法の一実施例を図18に示した文章900を例に具体的に説明する。先ず、テキスト解析手段120は入力手段110により入力された文章を解析し単語を抽出するための単語解析用辞書テーブル181を格納手段180から読み込みS101、タグ等の制御符号、その他の記号等、改行等による区切りの情報により文章の属性情報910、見出し情報920、本文部分を認識し、属性情報「外信」910を抽出しS102、単語解析用辞書テーブル181を参照して見だし情報920の単語「通商」を抽出しS103、単語解析用辞書テーブル181を参照して本文部分の単語「議会」、「財政」、「委員会」、「政権」、「貿易」、「貿易」、「通商」、「公聴会」、「米国」、「大阪」、「鈴木産業」等を抽出するS104(テキスト解析処理S10)。尚、属性情報910の抽出S102、見だし情報920の単語の抽出S103、本文部分の単語の抽出S104は必ずしもこの順番である必要はなく、同時に処理することとしてもよい。又、分類する文章に属性情報910或は見だし情報920がない場合等には適宜に属性情報の抽出S102、見だし情報の単語の抽出S103の処理を省略する。
【0098】
次に、キーワード走査手段130は分類項目キーワードテーブル182或は分類項目キーワードテーブル182に加えて都道府県市町村コードテーブル183、国名コードテーブル184、企業コードテーブル185等のコードテーブルの内少なくても一つを読み込みS201、分類項目キーワードテーブル182或は分類項目キーワードテーブル182に加えて適宜のコードテーブルをメモリへ展開しS202、抽出した単語「議会」、「財政」、「委員会」、「政権」、「通商」、「公聴会」、「米国」、「大阪」、「鈴木産業」等を分類項目キーワードテーブル182のキーワード「政権」、「財政」、「貿易」等と、更には都道府県市町村コードテーブル183のキーワード「北海道」、「札幌市」、「大阪」等と、国名コードテーブル184のキーワード「アフガニスタン」、「米国」等と、企業コードテーブル185のキーワード「鈴木産業」、「田中銀行」等と比較照合しS203、抽出した単語と一致したキーワード「通商」、「貿易」、「輸入」、「鉄鋼」、「米国」、「大阪」、「鈴木産業」等の出現頻度を分類項目、国名コード項目、都道府県市町村コード項目、企業コード項目毎に集計するS204(キーワード走査処理S20)。本実施例においては図19に示すとおり「通商」が3、「貿易」が2、「輸入」が1、「鉄鋼」が2、「自動車」が2、「政権」が2、「財政」が1、「赤字」が1であり、「米国」が1、「大阪」が1、「鈴木産業」が1である。
【0099】
そして、比較演算手段140は各種テーブルを参照してキーワード「通商」に対して大分類項目「経済」、中分類項目「マクロ経済」、小分類項目「貿易」をというように一致したキーワードに対応する分類項目、国名情報、都道府県市町村情報、企業情報を検索しS301、検索された小分類項目毎に、小分類項目毎のキーワード出現頻度、例えば小項目「貿易」では「通商」が3、「貿易」が2、「輸入」が1であるので「6」に抽出した属性情報「外信」910の小分類項目「貿易」が属する大分類項目「経済」に設定された係数「0.10」を乗じて重み付けを行い、同様の処理を小分類項目毎に行うと共に、国名コード項目、都道府県市町村コード項目、企業コード項目の出現頻度、例えば「米国」が1、「大阪」が1、「鈴木産業」が1を集計しS302、前記係数で修正した出現頻度「0.6」等で分類項目をソートすると共に、国名情報、都道府県市町村情報、企業情報の出現頻度を各情報毎にソートしS303、分類項目、国名情報、都道府県市町村情報、企業情報毎に分類結果を集計して分類項目、国名情報、都道府県市町村情報、企業情報を算出するS306(比較演算処理S30)。この際に各種算出された項目は例えば「経済」が「02000」、「米国」が「USA」、「鈴木産業」が「2501」のようにコードに変換される。
【0100】
尚、予めキーワードと特定の関係付けが指定されている分類項目、国名情報、都道府県市町村情報、企業情報を格納手段180に格納された特定情報キーワードテーブルを参照して検索しS304、分類項目、国名情報、都道府県市町村情報、企業情報の分類結果に反映させることとしてもよい。この場合にS301で検索された国名情報、都道府県市町村情報情報、企業情報と何れかを優先させて分類結果に反映させるかは任意に設定しうる。更に、見だし情報が本文とは別個に単語抽出処理がされている場合には、格納手段180に格納された特定分類項目キーワードテーブルを参照して見だし情報のキーワードから特定の分類項目を検索するS305こととしてもよい。この場合にS303でソートされ、優先順位がついた分類結果と何れかを優先させて分類結果に反映させるかは任意に設定しうる。
【0101】
次に、出力手段150により分類項目キーワードテーブル182或は加えて各種コードテーブル182,183,184,185を読み込みS401、分類項目キーワードテーブル或は加えて各種コードテーブル182,183,184,185を参照して分類結果のコード情報「02000」、から「経済」を、「USA」から「米国」を、「2501」から「鈴木産業」等を検索しS402、分類結果表示用ダイアログに項目名「経済」、「米国」、「大阪」、「鈴木産業」等をセットしS403、図20に示すように分類結果を表示或は印字するS404(分類結果出力処理S40)。
【0102】
次に、出力手段150により分類結果を表示した際に、例えば入力手段110により表示画面151上のOKタグ158又はキャンセルタグ159の指定或いは参照タグ157の指定により、分類結果の変更が必要か否か或いはを指示しS501、変更が不要であればOKタグ158を指定し次の処理を促し、参照タグ157の指定及び当該指定により画面151に表示される項目一覧(図示せず)からの項目の指定により変更された場合には変更処理をし、キャンセルセルタグ159の指定された場合には文章の変更を要求するS503(分類確認処理S50)。
【0103】
そして、変換結果格納手段160は分類項目キーワードテーブル182或は加えて各種コードテーブ182,183,184,185を参照して分類結果の項目名「経済」、「米国」、「鈴木産業」等からテーブル上のコード「02000」、「USA」、「2501」等へ変換しS601、テキスト形式の文章の所定のタグ項目に分類結果から変換したコードをセットするS602(変換結果格納処理S60)。尚、コードに変換せずに分類結果の項目名「経済」、「米国」、「鈴木産業」等をそのまま文章に追記してもよい。
【0104】
そして、蓄積手段170は、図21に示すような分類結果が付与された文章999を格納手段180に蓄積しS701、又は/及びモデム等の出力手段150は格納手段180に格納された或は未格納の分類結果が付与された文章999をネットワークを介して配信するS702。
【0105】
分類結果統計手段191は一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類項目毎の文章分布の統計処理を行いS801、出力手段150は該統計結果を出力するS802。
【0106】
尚、時代の変化に伴い、単語の変化、地域名の変化、企業の設立、合併、消滅等の変化に対応して各種テーブル181,182,183,184,185、186を入力手段110の指示で格納手段180から読み出して出力手段150にて表示しS901、入力手段110にて項目、キーワード、係数等の追加、削除、変更を行いS902、テーブルを再構成しS903、再構成したテーブルを格納手段180に格納する。
【0107】
【発明の効果】
以上のような本発明によれば、文章を極めて速やかに且つ高精度に自動に分類することが可能となった。又、総ての文章を予め定められた分類グループに分類可能となり、更には分類後のグループによって、当該文章の主題、関連分野、大まかな内容、関連する国、地域、企業等の把握が容易であり、更には当該分類後の文章を分類毎に蓄積、送信可能であって、利用者も文章を解読することなく主題等を把握可能な分類後の文章の活用が円滑に行うことが可能となり、更には簡易な構成のコンピュータ端末を利用しても上述の効果を得られた。
【図面の簡単な説明】
【図1】 本発明文章自動分類装置の一実施例ブロック図
【図2】 本発明文章自動分類装置の他実施例ブロック図
【図3】 本発明一実施例分類項目キーワードテーブルを示す図
【図4】 本発明一実施例都道府県市町村コードテーブルを示す図
【図5】 本発明一実施例国名コードテーブルを示す図
【図6】 本発明一実施例企業コードテーブルを示す図
【図7】 本発明一実施例係数テーブルを示す図
【図8】 本発明一実施例の処理の流れを示すフロー図
【図9】 本発明一実施例の処理の流れ一部を示すフロー図
【図10】 本発明一実施例の処理の流れ一部を示すフロー図
【図11】 本発明一実施例の処理の流れ一部を示すフロー図
【図12】 本発明一実施例の処理の流れ一部を示すフロー図
【図13】 本発明一実施例の処理の流れ一部を示すフロー図
【図14】 本発明一実施例の処理の流れ一部を示すフロー図
【図15】 本発明一実施例の処理の流れ一部を示すフロー図
【図16】 本発明一実施例の処理の流れ一部を示すフロー図
【図17】 本発明一実施例の処理の流れ一部を示すフロー図
【図18】 本発明における分類対象文章の一例を示す図
【図19】 本発明一実施例分類項目の重み付けの概念図
【図20】 本発明一実施例分類結果の表示画面を示す図
【図21】 本発明一実施例分類済み文章を示す図
【符号の説明】
100 文章自動分類装置
110 入力手段
120 テキスト解析手段
130 キーワード走査手段
140 比較演算手段
150 出力手段
160 変換結果格納手段
170 蓄積手段
180 格納手段
182 分類項目キーワードテーブル
183 都道府県市町村コードテーブル
184 国名コードテーブル
185 企業コードテーブル
186 分類項目係数テーブル
190 制御手段
191 分類結果統計手段
200 文章自動分類装置
210 編集端末
211 入力手段
212 出力手段
220 サーバーシステム
230 ネットワーク
910 属性情報
920 見出し情報
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an automatic sentence classification program, a computer-readable recording medium on which an automatic sentence classification program is recorded, an automatic sentence classification method, and an automatic sentence classification apparatus, and more particularly, a keyword included in a sentence is extracted and the extracted keyword classification item The present invention relates to a technique for performing automatic classification by calculating the corresponding classification items by summing up the appearance frequencies for each and performing weighting by multiplying by coefficients set in advance for each classification item. Furthermore, the present invention relates to a technique that can also calculate sub-category information of a sentence and perform fine classification.
[0002]
[Prior art]
As a technique related to a conventional automatic text classification program, a computer-readable recording medium in which the automatic text classification program is recorded, an automatic text classification method, and an automatic text classification apparatus, classification is performed using a feature pattern that characterizes a category to be classified ( JP-A-2000-222431) automatically calculates the frequency of keywords assigned to sentences and associates them with each other, assigns an upper directory to keywords with a high frequency, and creates keywords related to the keywords as lower directories. A technique (Japanese Patent Laid-Open No. 2000-231560) that obtains a tree structure of keywords and classifies each sentence according to the tree structure of a directory has been proposed.
[0003]
Furthermore, a technology for classifying a document based on a similarity with a semantic attribute of an already classified sentence with a semantic attribute of the sentence using a corpus (JP 2000-339310 A), inputting a sentence to be classified and attribute information, from the sentence A technique for extracting a keyword, calculating a similarity between a classification rule composed of a combination of a keyword and attribute information for each classification group, and the keyword or attribute information, and classifying it into a group corresponding to the most similar classification rule (Japanese Patent Laid-Open No. 2001-60199) ) Technology for checking whether one or more pre-registered keywords are included in an article, and storing an article including the keyword in a predetermined storage area provided for each keyword (Japanese Patent Laid-Open No. 2001-109772), etc. There is.
[0004]
However, in these conventional examples, if the groups to be classified are limited, the number of sentences that cannot be classified increases. On the other hand, if all the sentences are classified, the number of classification groups becomes extremely large and the limited tree. Since they are classified according to the structure, there is a drawback that one sentence is classified into a large number of classification groups. In addition, as the classification is repeated, the number of patterns, keywords, or sentences to be compared increases, and the classification process takes time.
[0005]
In addition, since only the appearance frequency of keywords or the presence or absence of keywords is directly reflected in the classification, the importance of each keyword in the classification group is not considered, or certain keywords are overly important when complementing the keywords. As a result, there is a drawback that classification with high accuracy cannot be performed.
[0006]
Furthermore, it is difficult for the conventional technology to grasp the subject of the classified text, related fields, rough contents, related countries, regions, companies, etc. from the classification group, and the utilization of the text after classification is smooth. There was also a disadvantage that it could not be done. In addition, when the classified document is taken out from the location stored for each classification, that is, it is not possible to grasp what classification the document belongs to only by looking at the document. .
[0007]
[Problems to be solved by the invention]
Therefore, the present invention can categorize sentences very quickly and with high accuracy, and can further classify all sentences into predetermined classification groups. It is easy to grasp the subject, related fields, rough contents, related countries, regions, companies, etc., and the sentences after the classification can be stored and transmitted for each classification, and the user also decodes the sentences. Sentences can be used smoothly without having to be able to grasp subjects, etc., and the above effects can be obtained even with a simple computer terminal, automatic sentence classification program, automatic sentence classification It is an object of the present invention to provide a computer-readable recording medium in which a classification program is recorded and an automatic sentence classification method.
[0008]
[Means for Solving the Problems]
As means for solving the above problems, firstly, the automatic sentence classification apparatus of the present invention is a storage means storing a classification item keyword table describing classification items and keywords associated with the classification items, and an input means for inputting sentences. Text analysis means for analyzing sentences and extracting words; keyword scanning means for comparing and collating the extracted words with the keyword group of the classification item keyword table stored in the storage means; and weighting the comparison and collation results Thus, the automatic sentence classification apparatus includes a comparison calculation unit that calculates a classification item to which the sentence corresponds.
[0009]
Secondly, storage means storing a classification item keyword table describing classification items and keywords associated with the classification items, input means for inputting sentences, text analysis means for analyzing sentences and extracting words, and extraction The keyword scanning means for comparing the collated words with the keyword group of the classification item keyword table stored in the storage means and totaling the appearance frequency of the keywords matching the extracted words for each classification item, and weighting the total results The automatic sentence classification device includes comparison operation means for calculating a classification item corresponding to the sentence.
[0010]
Third, the storage means stores a classification item coefficient table in which a coefficient is set for each classification item, and the comparison calculation means searches for a classification item corresponding to the matched keyword, and sets the keyword appearance frequency for each classification item for each classification item. An automatic sentence classification device characterized by multiplying a set coefficient and weighting, sorting the classification items by the appearance frequency corrected by the coefficient, and calculating the classification item corresponding to the sentence by totaling the classification results It is.
[0011]
Fourthly, a classification item keyword table describing a category item composed of at least two large and small categories and a keyword associated with the small category item, and a classification item coefficient table in which a coefficient is set for each large category item for each attribute information are stored. Storage means, input means for inputting text having attribute information, text analysis means for analyzing the input text, extracting attribute information and extracting words from portions other than the attribute information, and extracting the extracted words The keyword scanning means for comparing and collating with the keyword group of the classification item keyword table stored in the storage means and totaling the appearance frequency of the keyword matching the extracted word for each small classification item, and the small classification item corresponding to the keyword belong Search for major classification items, and extract the keyword appearance frequency for each minor classification item to the coefficient set for each major classification item for each attribute information. The weight is multiplied by the coefficient of the major classification item to which the minor classification item belongs, the minor classification item is sorted by the appearance frequency corrected by the coefficient, and the classification item is calculated by calculating the classification result. An automatic sentence classification device having a comparison operation means.
[0012]
Fifth, a classification item keyword table describing a classification item composed of at least two large and small categories and a keyword associated with the small classification item, a classification item coefficient table and a classification in which a coefficient is set for each large classification item for each attribute information A storage unit storing a specific classification item keyword table in which a keyword specifying a specific association with an item is described for each classification item, an input unit for inputting a sentence having attribute information and heading information, and an input sentence Analyzing and extracting attribute information and extracting a word from a part other than the attribute information; comparing the extracted word with a keyword group in the classification item keyword table stored in the storage means; The frequency of matching keywords is tabulated for each small classification item, and words extracted from the heading information are stored in the storage means. And a keyword scanning means for searching for a keyword that matches the extracted word by comparing with a keyword group in the specified classification item keyword table, and searching for a large classification item to which a small classification item corresponding to the keyword belongs. Of the coefficients set for each large classification item for each attribute information extracted in the keyword appearance frequency, weighting is performed by multiplying the coefficient of the large classification item to which the small classification item belongs, and small with the appearance frequency corrected by the coefficient A comparison operation unit that sorts the classification items, calculates the classification items corresponding to the sentences by counting the classification results, and calculates a small classification item corresponding to the keyword that matches the word extracted from the heading information. This is an automatic sentence classification device.
[0013]
According to the first to fifth configurations, it is possible to automatically classify sentences very quickly and with high accuracy, and further, it is possible to classify all sentences into predetermined classification groups. By group, it becomes easy to grasp the subject and rough contents of the sentence.
[0014]
Sixth, the storage means stores at least one code table describing a code item and a keyword associated with the code item, and the keyword scanning means stores at least one extracted keyword in the code table. Compare the group and count the appearance frequency of the keyword that matches the extracted word for each code item, and the comparison calculation means searches for the code item corresponding to the matching keyword, and the code item by the keyword appearance frequency for each code item This is an automatic sentence classification device characterized in that the code items corresponding to the sentences are calculated.
[0015]
Seventh, the code table should include at least one of the prefecture code table with the prefecture name as the keyword, the country code table with the country name as the keyword, and the company code table with the company name as the keyword. This is an automatic sentence classification device.
[0016]
According to the sixth and seventh configurations, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0017]
Eighth, the automatic document classification device is an automatic document classification device characterized by further comprising output means for outputting the classification result item calculated by the comparison operation means.
[0018]
Ninth, the automatic document classification device is an automatic document classification device characterized by further comprising conversion result storage means for additionally adding the calculated classification result item to a sentence.
[0019]
According to the above configuration, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, and the like without decoding the text, and can smoothly use the classified text.
[0020]
Tenth, the automatic document classification device is an automatic document classification device characterized by further comprising storage means for storing classified text for each item of classification result and / or distribution means for distribution.
[0021]
According to the above configuration, the classified text can be automatically stored and transmitted for each classification, and no person performs the storage and transmission, so there is no error in the storage location and destination.
[0022]
Eleventh, the automatic document classification device further summarizes the results of classification for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences to distribute the sentence distribution for each classification item. An automatic sentence classification apparatus comprising: a classification result statistical unit that performs the statistical processing; and an output unit that outputs the statistical result.
[0023]
Twelfthly, the automatic document classification apparatus further includes an output unit that outputs a table stored in the storage unit, an input unit that reconfigures the table by changing, adding, or deleting the contents of the table. An automatic sentence classification device comprising storage means for storing a table.
[0024]
According to the above configuration, the table used for classification can be reconfigured appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject matter of the sentence, related fields, and rough contents This makes it easy to identify the countries, regions, and companies involved.
[0025]
Thirteenth, an automatic sentence classification apparatus composed of an editing terminal and a server system connected via a network, wherein the editing terminal is an input means for inputting a sentence, and the inputted sentence and classification processing request is a server system. Storage means for storing a classification item keyword table in which keywords associated with the classification items are stored, and an editing terminal. Input means for receiving a sentence and a classification processing request from the text, a text analysis means for decomposing and extracting the sentence into words according to the classification processing request from the editing terminal, and a keyword group in which the extracted words are stored in the storage means Keyword scanning means to compare and match with, and comparison to find the corresponding classification item by weighting the comparison results A calculation unit, a text automatic classification device characterized in that it has an output means for transmitting the classification processing result to the editing terminal.
[0026]
According to the above method, it is possible to perform automatic text classification using a terminal with a simple configuration connected to the network, and maintenance such as reconfiguration of keyword groups is only required once.
[0027]
Fourteenth, a text analysis process for analyzing sentences and extracting words, a keyword scanning process for comparing and matching the extracted words with a keyword group in which keywords are associated with classification items, and weighting the comparison and matching results Then, an automatic sentence classification program that causes a computer to execute comparison calculation processing for calculating a classification item to which the sentence corresponds.
[0028]
Fifteenth, text analysis processing that analyzes sentences and extracts words, compares the extracted words with keyword groups that describe keywords associated with classification items, and classifies the appearance frequency of keywords that match the extracted words An automatic sentence classification program that causes a computer to execute a keyword scanning process that aggregates for each item and a comparison operation that calculates and classifies the classification items to which the sentence corresponds by weighting the aggregated results. It is.
[0029]
Sixteenth, the comparison calculation process searches for a classification item corresponding to the matched keyword, multiplies the keyword appearance frequency for each classification item by the coefficient set for each classification item, weights it, and corrects the appearance using the coefficient An automatic sentence classification program characterized in that classification items are sorted by frequency, and the classification results are totaled to calculate a classification item to which the sentence corresponds.
[0030]
Seventeenth, a program for causing a computer to execute a process of automatically classifying sentences having attribute information, analyzing the sentences having attribute information, extracting attribute information, and extracting words from portions other than the attribute information It consists of a text analysis process and at least two extracted words, large and small classification items. The keyword is compared with the keyword group described in association with the small classification items, and the appearance frequency of keywords that match the extracted words is reduced. Keyword scan processing to be aggregated for each classification item, search for major classification items to which minor classification items corresponding to matched keywords belong, and set for each major classification item for each attribute information extracted in keyword appearance frequency for each minor classification item The weighted by multiplying the coefficient of the major classification item to which the minor classification item belongs, and sorting the minor classification item with the appearance frequency corrected by the coefficient. And a text automatic classification program, characterized in that sentence summarizes the classification results to perform the comparison operation process of calculating a classification item corresponding to the computer.
[0031]
Eighteenth, a program for causing a computer to execute a process of automatically classifying a sentence having attribute information and heading information, analyzing the sentence having attribute information and heading information, extracting attribute information, and other than attribute information Text analysis processing that extracts words from parts, and compares the extracted words with keyword groups that are described by associating keywords with minor classification items, and the appearance frequency of keywords that match the extracted words is aggregated for each minor classification item Among the coefficients set for each major classification item for each attribute information, the keyword scanning process, the major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the keyword appearance frequency for each minor classification item is extracted. Weighting is performed by multiplying the coefficient of the major classification item to which the minor classification item belongs, and the minor classification item is sorted by the appearance frequency corrected by the coefficient, and the classification The computer calculates the classification item to which the sentence corresponds and calculates the classification item to which the keyword that matches the word extracted from the heading information belongs and calculates the classification item to which the sentence corresponds. This is an automatic text classification program.
[0032]
According to the fourteenth to eighteenth means, it is possible to automatically classify sentences very quickly and with high accuracy, and further, all sentences can be classified into predetermined classification groups. The later group will make it easier to understand the subject and general content of the text.
[0033]
Nineteenth, the keyword scanning process compares the extracted words with at least one keyword group described by associating the keywords with the code items, and totals the appearance frequency of the keywords that match the extracted words for each code item. The comparison calculation process includes a process of searching for a code item corresponding to the matched keyword, sorting the code items according to the keyword appearance frequency for each code item, and calculating a code item corresponding to the sentence. This is an automatic sentence classification program.
[0034]
The keyword group described in association with the code item in the 20th is a group keyword of a prefecture city that uses the name of the prefecture city as a keyword, a group of country names keyword that uses the country name as a keyword, and a company keyword group that uses the company name as a keyword. An automatic sentence classification program including at least one or more sentences.
[0035]
According to the nineteenth and twentieth means, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0036]
21. The document automatic classification program further includes an output process for outputting items of the classification result calculated by the comparison operation process, and causes the computer to execute these processes. Classification program.
[0037]
Twenty-secondly, the document automatic classification program further includes a conversion result storing process for adding the calculated classification result item to the sentence, and causing the computer to execute these processes. It is a program.
[0038]
According to the above means, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, etc. without deciphering the text, and can smoothly use the classified text.
[0039]
23. The document automatic classification program further includes a process of storing or / and distributing the classified text for each classification result item, and causing the computer to execute these processes. Classification program.
[0040]
According to the above means, the classified text can be automatically stored and transmitted for each classification, and the person does not store and transmit, so there is no error in the storage location and destination.
[0041]
24. The above automatic document classification program further summarizes the classification results for a certain period for each item, performs statistical processing on the appearance frequency of the set keyword, and normalizes the number of target sentences for each classification result item. This is a sentence automatic classification program characterized in that it includes a classification result statistical process for performing statistical processing of the sentence distribution and a process for outputting the statistical result, and causing the computer to execute these processes.
[0042]
25. A sentence automatic comprising: a process for outputting a keyword group, a process for reconfiguring the keyword group by changing, adding, or deleting the keyword group; and a process for storing the reconstructed keyword group Classification program.
[0043]
According to the above means, the table used for classification can be reconstructed appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject matter, related fields, and rough contents of the sentence This makes it easy to identify the countries, regions, and companies involved.
[0044]
The computer-readable recording medium on which the automatic sentence classification program of the present invention is recorded is a computer-readable recording medium on which the automatic sentence classification program of the fourteenth to twenty-fifth means is recorded.
[0045]
The step of inputting a sentence in 27th, the step of analyzing the sentence and extracting a word, the step of comparing and collating the extracted word with a group of keywords described by associating the keyword with a classification item, and comparing and collating And a step of finding a classification item to which the sentence corresponds by weighting the result.
[0046]
28. Text analysis step that analyzes sentences and extracts words, classifies the appearance frequency of keywords that match the extracted words by comparing and collating the extracted words with keyword groups that associate keywords with classification items A method for automatically classifying sentences, comprising: a keyword scanning step for summing up each item, and a comparison operation step for weighting the summed results to find a classification item to which the sentence falls.
[0047]
29. In the comparison operation step, a step of searching for a classification item corresponding to the matched keyword, a step of weighting the keyword appearance frequency for each classification item by a coefficient set for each classification item, This is an automatic sentence classification method comprising a step of sorting classification items according to appearance frequency corrected by a coefficient, and calculating a classification item corresponding to a sentence by totaling the classification results.
[0048]
Thirty-third is a method for automatically classifying sentences having attribute information, analyzing the sentences having attribute information, extracting attribute information, and extracting a text from a part other than the attribute information, and extracting Even if there are at least two words, the words are classified into two levels, large and small classification items. The keywords are compared with the keyword group described in association with the small classification items, and the appearance frequency of keywords that match the extracted words is totaled for each small classification item. Of the coefficients set for each major classification item for each attribute information extracted in the keyword scanning step and the major classification item to which the minor classification item corresponding to the matched keyword belongs and extracted to the keyword appearance frequency for each minor classification item Weight by multiplying the coefficient of the major classification item to which the minor classification item belongs, sort the minor classification items by the appearance frequency corrected with the coefficient, add up the classification results, and add text A text automatic classification method characterized by having a comparison operation step of calculating a relevant category.
[0049]
Thirty-one is a method for automatically classifying sentences having attribute information and heading information, analyzing the sentences having attribute information and heading information, extracting attribute information, and extracting words from portions other than the attribute information. A text analysis step, a keyword scanning step of comparing and collating the extracted word with a keyword group described in association with the keyword in the small classification item, and counting the appearance frequency of the keyword matching the extracted word for each small classification item, The major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the minor classification item belongs to the coefficient set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item. Multiply by the coefficient of the large classification item, weight it, sort the small classification item by the appearance frequency corrected by the coefficient, add up the classification result, and the sentence corresponds A method for automatically classifying sentences, comprising: calculating a category item, and searching for a category item to which a keyword matching the word extracted from the heading information belongs, and calculating a category item to which the sentence corresponds. is there.
[0050]
According to the above 27th to 31st configurations, it is possible to classify sentences very quickly and with high accuracy, and further, it is possible to classify all sentences into predetermined classification groups. By the group after classification, it becomes easy to grasp the subject and rough contents of the sentence.
[0051]
Thirty-second, the keyword scanning step compares the extracted word with at least one keyword group described by associating the keyword with the code item, and determines the appearance frequency of the keyword matching the extracted word for each code item. Including a step of counting, and the comparison operation step includes a step of searching for code items corresponding to the matched keywords, sorting the code items according to the keyword appearance frequency for each code item, and calculating the code item corresponding to the sentence. This is a featured automatic text classification method.
[0052]
Thirty-third, the keyword group described by associating the keyword with the code item includes a prefecture city keyword group that uses the prefecture city name as a keyword, a country name keyword group that uses the country name as a keyword, and a company keyword group that uses the company name as a keyword. It is a sentence automatic classification method characterized by including at least one or more of them.
[0053]
According to the above methods 32 and 33, the group after classification makes it easy to grasp related fields, related countries, regions, companies, and the like.
[0054]
34. The document automatic classification method according to claim 34, further comprising a classification result output step for outputting a classification result item calculated by the comparison operation step.
[0055]
35. The document automatic classification method according to claim 35, further comprising a conversion result storing step of adding the calculated classification result item to the text.
[0056]
According to the above method, the user can grasp the subject, related fields, rough contents, related countries, regions, companies, etc. without deciphering the text, and can smoothly use the classified text.
[0057]
In a thirty-sixth aspect, the document automatic classification method further includes a step of storing and / or distributing a classified sentence for each item of the classification result.
[0058]
According to the above method, it becomes possible to automatically store and transmit the classified sentences for each classification, and the person does not perform storage and transmission, so that there is no error in the storage location and the transmission destination.
[0059]
Thirty-seventh, the automatic document classification method further summarizes the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences for each classification result item. This is an automatic sentence classification method comprising: a classification result statistical step for performing statistical processing of the sentence distribution; and a step of outputting the statistical result.
[0060]
38. A step of outputting a keyword group, a step of reconfiguring the keyword group by changing, adding or deleting the keyword group, and a step of storing the reconstructed keyword group, This is an automatic text classification method.
[0061]
According to the above method, the table used for classification can be reconstructed appropriately, so it is possible to automatically classify sentences with extremely high accuracy, and depending on the group after classification, the subject of the sentence, related fields, and rough contents This makes it easy to identify the countries, regions, and companies involved.
[0062]
39. Steps for inputting sentences to the editing terminal; steps for the editing terminal to send the sentences to the server system to request classification processing; steps for the server system to receive the sentences and classification processing request; The system analyzes the sentence, extracts a word, compares the extracted word with a group of keywords described by associating the keyword with a classification item, weights the result of the comparison and matches the corresponding item, An automatic sentence classification method comprising a step of finding, a step of transmitting a classification process result to an editor terminal, and a step of receiving the classification process result by the editing terminal.
[0063]
According to the above method, it is possible to perform automatic text classification using a terminal with a simple configuration connected to the network, and maintenance such as reconfiguration of keyword groups is only required once.
[0064]
Here, the text is an electronic document, and there is no problem with the data format as long as it is a data format that can be processed by a computer. Of course, the sentences to be classified are not limited to Japanese but may be described in other languages such as English.
[0065]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the automatic document classification apparatus of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram of an embodiment of an automatic sentence classification apparatus according to the present invention. The automatic sentence classification apparatus 100 includes an input means 110, a text analysis means 120, a keyword scanning means 130, a comparison operation means 140, an output means 150, and a conversion. The result storage means 160, the storage means 170, the storage means 180, and the control means 190 are comprised, and it can comprise with a personal computer etc.
[0066]
The input unit 110 includes a keyboard, a scanner, a modem, a pointing device, and the like, and is a unit that inputs text to be classified. Input is performed by typing a sentence with a keyboard, reading with a scanner, or receiving it from another terminal connected to the network via a modem. In addition, various keyword groups displayed by the output unit 150 may be changed, added, deleted, reconfigured, the storage unit may be instructed to store, and the classification result may be instructed to be changed or canceled.
[0067]
The text analysis unit 120 is a unit that analyzes an input sentence, extracts attribute information and heading information, and extracts words from sentences other than the attribute information part. When attribute information and heading information are not included in the sentence or when they are not reflected in the classification, the sentence is analyzed without extracting the attribute information and heading information, and the word is extracted. The analysis of the sentence is performed by reading the word analysis dictionary table 181 from the storage unit 18 and referring to this to perform morphological analysis.
[0068]
The attribute information is information for maximal rough classification of the document inserted in an arbitrary place in the sentence, for example, the first line of the sentence. The heading information is a title of the document inserted in an arbitrary place in the sentence, for example, the second line of the sentence.
[0069]
The keyword scanning unit 130 reads the classification item keyword table 182 stored in the storage unit 180, compares it with the words in the sentence extracted by the text analysis unit 120, and determines the appearance frequency of the keyword that matches the extracted word as a small classification item. It is a means of counting every time. Further, the keyword scanning unit 130 associates the prefecture municipality code table 183 that associates the name of the prefecture with the code stored in the storage unit 180 and the code number as the code item, and associates the country name as the keyword with the code symbol as the code item. The country name code table 184, a code table such as a company code table 185 in which a company name as a keyword and a code number as a code item are associated with each other, read and compared with words in the sentence extracted by the text analysis unit 120, It also serves as a means for aggregating the appearance frequency of the matched keywords for each code item.
[0070]
The comparison calculation means 140 searches the major classification item to which the minor classification item corresponding to the matched keyword belongs, and among the coefficients set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item. Weighting by multiplying the coefficient of the major classification item to which the minor classification item belongs, sorting the minor classification item by the appearance frequency corrected with the coefficient, summarizing the classification results, and the corresponding classification item or the code Is a means for calculating. As the small category items are sorted, the middle category item and the large category item to which the small category item belongs are also sorted at the same time. In addition, the code items are sorted by country name information, prefectural and municipality information, and company information according to the appearance frequency of the keyword for each code item aggregated by the keyword scanning unit 130, and the country name to which the sentence corresponds by summarizing the classification results. It is also possible to calculate code items such as information, information on prefectures and municipalities, and company information.
[0071]
The output means 150 is composed of a monitor for displaying or printing the classification items or / and attached information items calculated by the comparison operation means, a printer, a modem for distributing texts via a network, or the like. Yes. The output unit 150 can output a classification item keyword table 182, various code tables 183, 184, 185, and a coefficient table 186.
[0072]
The conversion result storage unit 160 is a unit that converts the classification result item into a classification code or adds it to the text as it is without conversion. The storage means 170 is means for storing and storing the classified sentences in the storage means 180 for each classification. The conversion result storage unit 160 and the storage unit 170 may not be particularly provided. The storage means 180 is composed of a magnetic recording medium such as a hard disk or a magneto-optical recording medium. The control means 190 is a means for controlling the processing of each means described above.
[0073]
The storage unit 180 includes a word analysis dictionary table 181, a classification item as a keyword group describing keywords for each classification item, a code indicating the classification item, a classification item keyword table 182 describing a keyword associated with the classification item, and a keyword code A prefecture / city / town / town / village code table 183 associating a code group with a prefecture / city / town / city name as a keyword group described in association with an item, a country / code code table 184 associating a country name and code symbol, and a company code table 185 associating a company name and code number And a classification item coefficient table 186 is stored. Furthermore, a classification information, a country information item, a prefectural city information item, a specific information keyword table (not shown) describing a keyword specifying a specific relationship with a company information item for each item, a classification item, It is also possible to store a specific classification item keyword table (not shown) in which keywords specifying the specific association are described for each classification item. Further, the reconstructed various tables 182, 183, 184, 185, 186 and the like are stored.
[0074]
The storage means 180 is not built in the automatic sentence classification device 100, but is stored in a server having storage means, reception means, etc. connected to the automatic sentence classification device 100 via a network, and stored in the storage means. The automatic document classification device 100 may receive and read the tables 181, 182, 183, 184, 185, and 186 when used, and may be transmitted and stored in the server or the like when accumulating classified sentences. Further, when classifying only the classification items, only the word analysis dictionary table 181, the classification item keyword table 182 and the classification item coefficient table 186 are stored in the storage means 180, the prefecture municipality code table 183, the country name code table 184, and the company The code table 185 can be deleted as appropriate. In this case, only classification items are searched, and information such as prefectures, municipalities, country names, and companies is not searched or classified. Further, depending on the sentence analysis and word extraction method, the word analysis dictionary table 181 may not be provided.
[0075]
Further, the automatic sentence classification device 100 aggregates the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and statistical processing of the sentence distribution for each item of the classification result normalized by the number of target sentences. It is good also as having the classification result statistics means 191 which performs. The result of the statistics is output by the output means 150.
[0076]
As shown in FIG. 3, the classification item keyword table 182 has a large item, the large item is divided into medium items, the medium item is also divided into small items, and is formed in a three-layer structure. It is described in association with each sub-item. The middle category item is a superordinate concept of the minor category item, and the major category item is a superordinate concept of the middle category item and the minor category item. Each item has a corresponding code. It is not always necessary to have a three-layer structure, and one layer, two layers, or four or more layers may be used as appropriate. As shown in FIG. 4, the prefecture / city / town / village code table 183 has a two-layer structure with prefectures in the upper layer and municipalities in the lower layer for each prefecture, and code numbers are associated with the respective prefectures and municipalities. As shown in FIG. 5, the country name code table 184 describes a country name and a code symbol in association with each other. The company code table 185 is described in association with the company and the code number as shown in FIG.
[0077]
In the classification item coefficient table 186, a large item is set for each attribute information, and a classification item coefficient is associated with each large item. The specific information keyword table is a table in which keywords specifying a specific relationship with country name information, prefecture city information, and company information are described, and a keyword is associated with each item. The specific classification item keyword table is a table describing keywords that specify a specific relationship with a classification item, and a keyword is associated with each small classification item.
[0078]
These various tables can be displayed on the monitor screen which is the output means 150, and can be changed, added or deleted by the mouse, keyboard or the like which is the input means 110. Various tables which have been changed, added, deleted or reconfigured are input means. 110 is stored in the storage unit 180 by the storage unit 170 according to the instruction 110.
[0079]
FIG. 2 is a block diagram of another embodiment of the automatic text classification apparatus of the present invention. The automatic text classification apparatus 200 is an editing terminal 210 composed of a personal computer or the like, and a server composed of a workstation or a personal computer. The network 220 is configured to connect the system 220, the editing terminal 210, and the server system 220. The editing terminal 210 inputs text composed of a keyboard, a scanner, a modem, a pointing device, and the like, and further displays the classification result such as an input means 211 for receiving classification information from the server system 220, a monitor, a printer, a modem, The printer includes at least an output unit 212 for printing and transmitting a sentence and a classification request to the server system 220 and a control unit for controlling these units. Other conversion result storage means and storage means may be included.
[0080]
The server system 220 has substantially the same configuration as the automatic sentence classification device 100 described above, and receives input of an sentence or the like from an editing terminal including a text analysis unit 221, a keyword scanning unit 222, a comparison calculation unit 223, a modem, and the like. Means 224, output means 225 for transmitting classification results to the editing terminal 210, word analysis dictionary table 241, classification item keyword table 242, prefectural municipal code table 243, country code table 244, company code table 245, and classification item coefficient The storage unit 240 stores the table 246, and the control unit 226 controls these units. Other conversion result storage means 227, storage means 228, classification result statistics means 229, and the like may be included. Note that the network 230 does not ask wired or wireless.
[0081]
Next, the processing procedure of the document automatic classification program of the present invention will be described. FIG. 8 is a flowchart showing an embodiment of the processing procedure of the document automatic classification program of the present invention. First, a text analysis process for analyzing a document to be classified and extracting a word from the sentence is performed S10. Next, a keyword scanning process for comparing and collating the extracted word with the keyword group is performed S20. Then, a comparison operation process is performed for weighting the results of the comparison and collation and calculating the category items to which the sentences correspond (S30). Next, after a category item is found, a process of outputting the classification result is performed S40. Next, it is requested to determine whether the classification result needs to be changed or not, and when the change is required, the user is prompted to change the document or the classification result, and when no change is required or the classification result is changed. In the case of failure, classification confirmation processing S50 to be advanced to the next step is performed. And the conversion result storage process which adds the item of the result of a classification to a text is performed S60. Furthermore, the process which accumulate | stores and / or distributes the classified sentence for every classified item is performed S70.
[0082]
The classification result output process S40, the classification confirmation process S50, the conversion result storage process S60, the accumulation process and / or the distribution process S70 other than the text analysis process S10, the keyword scanning process S20, and the comparison calculation process S30 are not necessarily required. This process may be omitted, and an appropriate process may be selected from these processes to proceed, or the process may be appropriately changed to proceed.
[0083]
Each process will be described in detail. The text analysis process S10 reads a word analysis dictionary for decomposing a sentence to be classified into words S101, extracts attribute information from the sentence S102, and extracts information found from the sentence. At the same time, the word of the finding information part is extracted by referring to the word analysis dictionary S103, and the word of the body part excluding the attribute information and the finding information from the sentence by referring to the word analysis dictionary S104. Note that the attribute information extraction S102, the word information extraction S103, and the body part word extraction S104 are not necessarily in this order, and may be performed simultaneously. Further, when there is no attribute information or finding information in the sentence to be classified or when it is not reflected in the classification, the processing of extracting attribute information S102 and extracting word of finding information S103 is omitted as appropriate. The attribute information, the finding information, and the body part are divided by a control code such as a tag, other symbols, and delimiter information by line breaks, and each part is extracted.
[0084]
Note that the word extraction in the text analysis process S10 can be performed by referring to the word analysis dictionary and analyzing the sentence based on the morphological analysis to extract the word and using various other extraction methods. The extraction method is not limited.
[0085]
The keyword scanning process S20 is performed in addition to the classification item keyword table or the classification item keyword table constituting the keyword group, and in addition to the item table of the attached information such as the prefecture code table, the country code table, and the company code table. At least one is read in S201, an appropriate code table is developed in the memory in addition to the classification item keyword table or the classification item keyword table, and the extracted word is compared with the keyword group of the classification item keyword table or the code table. S203, the appearance frequency of keywords in the keyword group of the classification item keyword table that matches the extracted word is totaled for each small classification item, or the appearance frequency of keywords in the keyword group of the code table is further totaled for each code item. . Note that the number is counted even when there are a plurality of the same keywords. The keywords included in the heading information may or may not be counted.
[0086]
S30 which performs the comparison calculation process searches each large / medium / small classification item corresponding to the keyword matched with the extracted word, or in addition, the code item of country name information, the code item of prefecture / city / town / village information, and the code item of company information. S301, weighting by multiplying the coefficient set for each major classification item for each attribute information extracted by the keyword appearance frequency for each retrieved minor classification item by the coefficient of the major classification item to which the minor classification item belongs, or Further, the keywords for each code item searched for each code table are weighted by the appearance frequency in S302, the small classification items are sorted by the appearance frequency corrected by the coefficient, and as a result, the large / medium classification items to which the small classification items belong are sorted, or Further, the code items are sorted by the appearance frequency for each code item, and the code item of S303, classification item, country name information, and prefectural municipal information is sorted. S306 to calculate category or the code entry by aggregating the results of the classification for each code field of enterprise information, code items of country information, code item prefectures municipal information, the code items of the company information.
[0087]
Of course, only the classification items may be searched, sorted, etc., and processing such as country name information code items, prefecture city information code items, company information code items may be omitted as appropriate. Good. In addition, the weighting S302 is based on the keyword appearance frequency for each retrieved small classification item, and the middle classification item or small classification to which the small classification item belongs among the coefficients set for each medium classification item or small classification item for each extracted attribute information. Weighting may be performed by multiplying by the coefficient of the classification item. Furthermore, the weighting does not reflect the attribute information or does not reflect the attribute information. Weighting may be performed by multiplying the keyword appearance frequency by a coefficient set for each major category item to which the minor category item belongs, or for each minor category item or each middle category.
[0088]
In addition, if the extracted word matches the keyword of the keyword group that specifies the specific relationship with at least one of the classification item, country name information, prefecture city information, and company information, the keyword and the specific relationship It is also possible to search the classification item for which the designation is specified, the code item of the country name information, the code item of the prefectural and municipality information, and the code item of the company information with reference to the specific information keyword table and reflect them in the result of classification in S304. Good. In this case, it is possible to arbitrarily set whether to prioritize one of the classification item, country name information, prefecture / city / town / village information, and company information searched in S303 and reflect the result in the classification result. Furthermore, when the extraction information has been subjected to word extraction processing separately from the body text, the keyword information of the keyword group in the specific classification item keyword table for designating a specific relationship with the classification item in advance If the extracted words match, a specific classification item may be searched from the keyword in the found information part. In this case, it is possible to arbitrarily set whether or not the sorting result with the priority ranking and the sorting result with priority ranking is given priority and reflected in the sorting result.
[0089]
As the classification result, only the highest sorted item may be calculated as the classification result, but a plurality of appropriate higher order items may be calculated as the classification result.
[0090]
S40, which performs the process of outputting the classification result, reads the classification item keyword table or various code tables in addition to S401, refers to the classification item keyword table or addition various code tables, and determines the item name from the classification result code. Search S402, set the item name in the classification result display dialog S403, display or further print the classification result S404. Here, the classification result may display only the topmost sorted item as a result, or may display a plurality of appropriate upper items as the classification result.
[0091]
The classification confirmation processing S50 requests to judge whether or not the classification result needs to be changed when the classification result is displayed, and whether or not to cancel the classification result. S501, when no change is necessary or an instruction to change the classification result. If the change is made, the process proceeds to S502, the next process is performed, and if the classification result is cancelled, the change of the document is prompted to perform S503, and the classification confirmation process S50 is performed.
[0092]
The conversion result storing process S60 is performed by referring to the classification item keyword table or in addition to various code tables to convert the classification result item name into the code on the table S601, and the text-formatted sentence such as XML data in a predetermined format. A code converted from the classification result is set in the tag item and added to the sentence S602. Of course, the word of the classification result item may be added as it is without converting the classification result into a code.
[0093]
S70 for performing processing for accumulating or / and distributing sentences for each classification accumulates sentences to which classification results are given, for example, XML data, and distributes S701 or / and sentences to which classification results are given S702. The accumulation is stored for each classification in a storage area for each classification result provided in advance, but may be stored without providing a storage area for each classification result. In addition, the distribution is distributed to a distribution destination corresponding to a predetermined classification, but may be distributed to any distribution destination regardless of the classification. The classification results may be any of large classification items, medium classification items, small classification items, country name information, prefectural and municipality information, and company information, and any of these classifications. It is also possible to perform storage or distribution processing corresponding to the item or all applicable classification items.
[0094]
Further, a result of classification for a certain period is totaled, a statistical processing is performed on the frequency of occurrence of the set keyword, and a statistical result is calculated for each item of the classification result normalized by the number of target sentences, a classification result totaling process S801, It is recommended to include the process S802 for outputting the aggregation result.
[0095]
Further, a classification item keyword table as a keyword group described for each classification item and / or various code tables as a keyword group described for each code item are output S901, and the keyword group is changed, added or deleted, S902, keyword It is recommended to include the process S903 for reconfiguring the group.
[0096]
In addition, as a computer-readable recording medium on which an automatic document classification program is recorded, an automatic sentence classification program for causing a computer to execute the above processing is recorded on a computer-readable recording medium such as a magnetic disk, magnetic tape, or optical disk. It is a thing. When the automatic sentence classification process is performed, the above-described automatic sentence classification process is performed by reading the recording medium into a computer and executing the program.
[0097]
Next, an embodiment of the automatic classification method of the present invention will be specifically described by taking the sentence 900 shown in FIG. 18 as an example. First, the text analysis unit 120 reads the word analysis dictionary table 181 for analyzing the sentence input by the input unit 110 and extracting words from the storage unit 180 S101, control codes such as tags, other symbols, etc. The sentence attribute information 910, heading information 920, and body part are recognized based on the delimiter information and the like, the attribute information “foreign communication” 910 is extracted, and the word of the finding information 920 is referred to the word analysis dictionary table 181. “Commerce” is extracted and the word “Parliament”, “Finance”, “Committee”, “Government”, “Trade”, “Trade”, “Trade” in the text part is referred to S103, the word analysis dictionary table 181. , “Hearing”, “USA”, “Osaka”, “Suzuki Sangyo”, etc. are extracted (S104). Note that the extraction S102 of attribute information 910, the word extraction S103 of the finding information 920, and the word extraction S104 of the body part are not necessarily in this order, and may be processed at the same time. In addition, when there is no attribute information 910 or finding information 920 in the sentence to be classified, the processing of attribute information extraction S102 and finding information word extraction S103 is omitted as appropriate.
[0098]
Next, the keyword scanning means 130 includes at least one of the code table such as the prefectural municipal code table 183, the country code table 184, and the company code table 185 in addition to the classification item keyword table 182 or the classification item keyword table 182. S201, in addition to the classification item keyword table 182 or the classification item keyword table 182, the appropriate code table is expanded in the memory S202, and the extracted words “congress”, “finance”, “committee”, “government”, “Trade”, “Hearing”, “United States”, “Osaka”, “Suzuki Sangyo”, etc. The keywords “government”, “finance”, “trade”, etc. of the classification item keyword table 182, and further, the city code of the prefecture The keywords “Hokkaido”, “Sapporo City”, “Osaka”, etc. The keywords “Afghanistan”, “USA”, etc. of the Le 184 are compared with the keywords “Suzuki Sangyo”, “Tanaka Bank”, etc. of the company code table 185, S203, the keywords “Trading”, “Trade” that match the extracted words , “Import”, “Steel”, “USA”, “Osaka”, “Suzuki Sangyo”, etc., appearing frequency is classified by category, country code item, prefecture code item, and company code item S204 (Keyword Scan) Process S20). In this example, as shown in FIG. 19, “trade” is 3, “trade” is 2, “import” is 1, “steel” is 2, “automobile” is 2, “government” is 2, and “finance” is 1. “Red” is 1, “USA” is 1, “Osaka” is 1, and “Suzuki Sangyo” is 1.
[0099]
Then, the comparison calculation means 140 refers to various tables and corresponds to the keyword that matches the keyword “trade” with the large classification item “economy”, the medium classification item “macro economy”, and the small classification item “trade”. S301, search for the category item, country name information, prefecture city information, and company information to be performed, and for each subcategory searched, the keyword appearance frequency for each subcategory item, for example, “Trade” is 3 in the subitem “Trade”, Since “trade” is 2 and “import” is 1, the coefficient “0...” Set for the major category “economy” to which the minor category “trade” of the attribute information “foreign news” 910 extracted to “6” belongs. "10" is weighted, the same processing is performed for each small classification item, and the appearance frequency of the country code item, the prefecture code item, and the company code item, for example, "USA" is 1 and "Osaka" is 1 , "Suzuki "1" is added up to S302, the classification items are sorted by the appearance frequency "0.6" corrected by the coefficient, and the appearance frequency of the country name information, the prefecture city information, and the company information is sorted for each information. Then, the classification item, country name information, prefecture city information, and company information are aggregated for each classification result to calculate the classification item, country name information, prefecture city information, and company information (S306). At this time, various items calculated are converted into codes such that “Economy” is “02000”, “USA” is “USA”, and “Suzuki Industry” is “2501”.
[0100]
It should be noted that the classification item, country name information, prefecture / city / town / village information, and company information for which a specific association with the keyword is designated in advance is searched with reference to the specific information keyword table stored in the storage means 180, and S304, the classification item, It may be reflected in the classification result of country name information, prefecture city information, and company information. In this case, it is possible to arbitrarily set whether to prioritize any of country name information, prefecture / city / town / village information, and company information searched in S301 and reflect them in the classification result. Furthermore, when the extraction information is subjected to word extraction processing separately from the text, a specific classification item is searched from the keywords of the extraction information with reference to the specific classification item keyword table stored in the storage unit 180. S305 may be performed. In this case, it is possible to arbitrarily set whether or not the sorting result with the priority ranking and the sorting result with priority ranking is given priority and reflected in the sorting result.
[0101]
Next, the classification means keyword table 182 or various code tables 182, 183, 184, and 185 are read by the output means 150 in step S401, and the classification item keyword table or additionally various code tables 182, 183, 184, and 185 are referred to. From the code information “02000” of the classification result, “Economy” is searched, “USA” is searched from “USA”, “Suzuki Sangyo” is searched from “2501”, etc., and the item name “Economy” is displayed in the classification result display dialog. ”,“ USA ”,“ Osaka ”,“ Suzuki Sangyo ”, etc. are set and S403, and the classification result is displayed or printed as shown in FIG. 20 (S404).
[0102]
Next, when the classification result is displayed by the output unit 150, whether or not the classification result needs to be changed by specifying the OK tag 158 or the cancel tag 159 on the display screen 151 or the reference tag 157 by the input unit 110, for example. If the change is unnecessary, an OK tag 158 is designated to prompt the next processing, and the designation from the reference tag 157 and the items from the item list (not shown) displayed on the screen 151 by the designation are performed. If the change is made by designating, the change process is performed, and if the cancel cell tag 159 is designated, the text change is requested S503 (classification confirmation process S50).
[0103]
The conversion result storage means 160 refers to the classification item keyword table 182 or in addition to the various code tables 182, 183, 184, and 185, from the classification result item names "Economy", "USA", "Suzuki Sangyo", etc. Conversion to codes “02000”, “USA”, “2501” and the like on the table is performed in S601, and a code converted from the classification result is set in a predetermined tag item of a text-format sentence (S602). The item names “economy”, “US”, “Suzuki Sangyo”, etc. of the classification result may be added to the text as they are without being converted into codes.
[0104]
Then, the storage unit 170 stores the text 999 to which the classification result as shown in FIG. 21 is given in the storage unit 180, and the output unit 150 such as S701 and / or a modem is stored in the storage unit 180 or not. A sentence 999 to which the storage classification result is given is distributed via the network S702.
[0105]
The classification result statistics unit 191 aggregates the classification results for a certain period for each item, statistically processes the appearance frequency of the set keyword, and performs the statistical processing of the sentence distribution for each classification item normalized by the number of target sentences. The output unit 150 outputs the statistical result S802.
[0106]
It should be noted that various tables 181, 182, 183, 184, 185, and 186 are instructed by the input means 110 in response to changes in words, changes in area names, establishment of companies, mergers, disappearances, etc. with changes in the times. In step S901, the input unit 110 adds, deletes, and changes items, keywords, coefficients, and the like, and the table is reconfigured in step S903. The reconfigured table is stored. Store in means 180.
[0107]
【The invention's effect】
According to the present invention as described above, it is possible to automatically classify sentences very quickly and with high accuracy. In addition, all sentences can be classified into predetermined classification groups, and the group after classification can easily grasp the subject, related fields, rough contents, related countries, regions, companies, etc. Furthermore, it is possible to store and send the classified text for each classification, and the user can smoothly use the classified text so that the subject can be grasped without decoding the text. Further, the above-described effects can be obtained even when a computer terminal having a simple configuration is used.
[Brief description of the drawings]
FIG. 1 is a block diagram of an embodiment of an automatic sentence classification apparatus according to the present invention.
FIG. 2 is a block diagram of another embodiment of the automatic text classification device of the present invention.
FIG. 3 is a diagram showing a classification item keyword table according to an embodiment of the present invention;
FIG. 4 is a diagram showing a prefecture / city / town / village code table according to an embodiment of the present invention;
FIG. 5 shows a country code table according to an embodiment of the present invention.
FIG. 6 is a diagram showing a company code table according to an embodiment of the present invention.
FIG. 7 is a diagram showing a coefficient table according to an embodiment of the present invention.
FIG. 8 is a flowchart showing the flow of processing according to an embodiment of the present invention.
FIG. 9 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 10 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 11 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 12 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 13 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 14 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 15 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 16 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 17 is a flowchart showing a part of the processing flow of an embodiment of the present invention.
FIG. 18 is a diagram showing an example of a classification target sentence in the present invention.
FIG. 19 is a conceptual diagram of weighting of classification items according to an embodiment of the present invention.
FIG. 20 is a diagram showing a display screen of a classification result according to an embodiment of the present invention.
FIG. 21 is a diagram showing classified sentences according to one embodiment of the present invention.
[Explanation of symbols]
100 Automatic sentence classification device
110 Input means
120 Text analysis means
130 Keyword scanning means
140 Comparison operation means
150 Output means
160 Conversion result storage means
170 Storage means
180 Storage means
182 Classification Item Keyword Table
183 Prefecture municipality code table
184 country code table
185 company code table
186 Classification item coefficient table
190 Control means
191 Classification result statistical means
200 Automatic sentence classification device
210 Editing terminal
211 Input means
212 Output means
220 server system
230 network
910 Attribute information
920 heading information

Claims (30)

属性情報を有する文章を自動分類する文章自動分類装置であって、少なくとも大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルを格納した格納手段と、属性情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置。 Sentences having attribute information to a text automatic classification apparatus for automatically classifying the classification describes the keywords associated with the classification items and the small classification items of at least the magnitude of the secondary hierarchical item keyword table and large categories each attribute information A storage means storing a classification item coefficient table in which a coefficient is set for each, an input means for inputting a sentence having attribute information, analyzing the inputted sentence, extracting attribute information, and a word from a part other than the attribute information A keyword analysis unit that extracts a word and compares the extracted word with a keyword group in the classification item keyword table stored in the storage unit and totals the appearance frequency of the keyword that matches the extracted word for each small classification item Search the major classification item to which the minor classification item corresponding to the keyword and the keyword belongs, Multiply the coefficients set for each major classification item for each attribute information extracted by weighting by the coefficient of the major classification item to which the minor classification item belongs, and sort the minor classification items by the appearance frequency modified by the coefficient And a comparison operation means for calculating the classification items to which the sentences correspond by counting the classification results. 属性情報及び見出し情報を有する文章を自動分類する文章自動分類装置であって、少なくとも大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルと分類項目との特定の関係付けを指定するキーワードを分類項目毎に記述した特定分類項目キーワードテーブルを格納した格納手段と、属性情報及び見出し情報を有する文章を入力する入力手段と、入力された文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出した単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計すると共に、見出し情報から抽出した単語を格納手段に格納された特定分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードを検索するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードに対応する小分類項目を算出する比較演算手段とを有することを特徴とする文章自動分類装置。A text automatic classification device that automatically classifies text having attribute information and heading information, and includes a classification item keyword table that describes at least two categories of classification items and keywords associated with the small classification items, and each attribute information Storage means for storing a specific classification item keyword table in which a keyword specifying a specific relationship between a classification item coefficient table and a classification item in which a coefficient is set for each large classification item is described for each classification item, attribute information, and header information An input means for inputting a sentence having text, a text analysis means for analyzing the input sentence, extracting attribute information and extracting a word from a part other than the attribute information, and a classification in which the extracted word is stored in the storage means Compare with the keyword group in the item keyword table and subdivide the appearance frequency of keywords that match the extracted word. A keyword scanning unit that counts each item, compares the words extracted from the heading information with a keyword group in the specific classification item keyword table stored in the storage unit, and searches for keywords that match the extracted words; The major classification item to which the corresponding minor classification item belongs is searched for, and among the coefficients set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item, the major classification item to which the minor classification item belongs Multiply by the coefficient, weight, sort the small classification items by the appearance frequency corrected by the coefficient, calculate the classification items to which the sentence corresponds by counting the classification results, and match the words extracted from the heading information An automatic sentence classification apparatus, comprising: a comparison operation unit that calculates a small classification item corresponding to a keyword. 格納手段にはコード項目とコード項目に関連付けられたキーワードを記述した少なくとも一以上のコードテーブルが格納され、キーワード走査手段は抽出した単語を少なくとも一以上のコードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計し、比較演算手段は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出することを特徴とする請求項1又は2に記載の文章自動分類装置。The storage means stores at least one code table describing the code item and a keyword associated with the code item, and the keyword scanning means compares the extracted word with at least one keyword group of the code table and extracts it. The frequency of occurrence of keywords that match the matched words is tabulated for each code item, and the comparison calculation means searches for code items corresponding to the matched keyword, sorts the code items by the keyword appearance frequency for each code item, and the sentence is applicable 3. The automatic sentence classification apparatus according to claim 1, wherein a code item to be calculated is calculated. コードテーブルは都道府県市町村名をキーワードとする都道府県市町村コードテーブル、国名をキーワードとする国名コードテーブル、企業名をキーワードとする企業コードテーブルの内少なくとも1つ以上を含むことを特徴とする請求項3に記載の文章自動分類装置。The code table includes at least one or more of a prefecture / city / town / village code table having a prefecture / city / town / village name as a keyword, a country / country code table having a country name as a keyword, and a company code table having a company name as a keyword. The automatic sentence classification apparatus according to 3. 上記文章自動分類装置は、更に前記比較演算手段により算出された分類の結果の項目を出力する出力手段を有することを特徴とする請求項1から4の内何れか1項に記載の文章自動分類装置。The automatic sentence classification device according to any one of claims 1 to 4, wherein the automatic sentence classification device further includes an output means for outputting an item of a classification result calculated by the comparison operation means. apparatus. 上記文章自動分類装置は、更に算出された分類の結果の項目を文章に追記する変換結果格納手段を有することを特徴とする請求項1から5の内何れか1項に記載の文章自動分類装置。The text automatic classification apparatus further text automatic classification apparatus according to the result of the entry of the calculated categorized claim 1, characterized in that it comprises a conversion result storage unit that appended to the text in any one of the 5 . 上記文章自動分類装置は、更に分類した文章を分類の結果の項目毎に蓄積する蓄積手段又は/及び配信する配信手段を有することを特徴とする請求項1から6の内何れか1項に記載の文章自動分類装置。 7. The automatic sentence classification apparatus according to claim 1, further comprising storage means for storing the classified sentences for each item of the classification result and / or distribution means for distributing. Automatic text classification device. 上記文章自動分類装置は、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類項目毎の文章分布の統計処理を行う分類結果統計手段と、該統計結果を出力する出力手段を有することを特徴とする請求項1から7の内何れか1項に記載の文章自動分類装置。The sentence automatic classification device further sums up the results of classification for a certain period for each item, statistically processes the appearance frequency of the set keyword, and performs statistical processing of sentence distribution for each classification item normalized by the number of target sentences. The automatic sentence classification apparatus according to any one of claims 1 to 7, further comprising classification result statistical means for performing and output means for outputting the statistical result. 上記文章自動分類装置は、更に格納手段に格納されたテーブルを出力する出力手段と、テーブルの内容を変更、追加、削除してテーブルを再構成する入力手段と、再構成されたテーブルを格納する格納手段を有することを特徴とする請求項1から8の内何れか1項に記載の文章自動分類装置。The automatic sentence classification apparatus further stores an output means for outputting a table stored in the storage means, an input means for reconfiguring the table by changing, adding or deleting the contents of the table, and a reconfigured table. The automatic sentence classification apparatus according to any one of claims 1 to 8, further comprising a storage unit. 属性情報を有する文章を自動分類する文章自動分類装置であって、ネットワークを介して接続されている編集端末及びサーバーシステムから構成され、編集端末は文章を入力する入力手段と、入力した文章及び分類処理要求をサーバーシステムに送信する出力手段と、サーバーシステムからの分類処理結果を受信する入力手段とを有し、サーバーシステムは、少なくとも大小の二階層からなる分類項目と小分類項目に関連付けられたキーワードを記述した分類項目キーワードテーブルと属性情報毎の大分類項目毎に係数を設定した分類項目係数テーブルを格納した格納手段と、編集端末からの属性情報を有する文章及び分類処理要求を受信する入力手段と、編集端末からの分類処理要求にしたがって該文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するテキスト解析手段と、抽出された単語を格納手段に格納された分類項目キーワードテーブルのキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査手段と、キーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算手段と、分類処理結果を編集端末に送信する出力手段を有することを特徴とする文章自動分類装置。 Sentences having attribute information to a text automatic classification apparatus for automatically classifying, consists editing terminal and server systems are connected via a network, the editing terminal is an input means for inputting a sentence, the sentence and classification entered An output unit that transmits a processing request to the server system; and an input unit that receives a classification processing result from the server system. The server system is associated with at least two categories of large and small classification items and small classification items. A storage means storing a classification item keyword table describing a keyword and a classification item coefficient table in which a coefficient is set for each large classification item for each attribute information, and an input for receiving a sentence having attribute information from the editing terminal and a classification processing request If the text is analyzed and attribute information is extracted in accordance with the means and the classification processing request from the editing terminal. The text analysis means for extracting words from parts other than the attribute information and the extracted words are compared with the keyword group in the classification item keyword table stored in the storage means to reduce the appearance frequency of keywords that match the extracted words. The keyword scanning means for summarizing each classification item and the major classification item to which the minor classification item corresponding to the keyword belongs are searched and set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item Multiplying the coefficient of the major classification item to which the minor classification item belongs and weighting the coefficients, sorting the minor classification items by the appearance frequency corrected by the coefficient, summarizing the classification results, An automatic sentence classification device comprising: a comparison calculation means for calculating; and an output means for transmitting a classification processing result to an editing terminal. 属性情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語を少なくとも大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラム。A text analysis process for causing a computer to execute a process of automatically classifying a sentence having attribute information, analyzing the sentence having attribute information, extracting attribute information, and extracting a word from a part other than the attribute information The extracted words consist of at least two levels of large and small classification items, the keywords are compared and collated with the keyword group described in association with the small classification items, and the appearance frequency of keywords that match the extracted words is totaled for each small classification item Among the coefficients set for each major classification item for each attribute information, the keyword scanning process, the major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the keyword appearance frequency for each minor classification item is extracted. Weighting is performed by multiplying the coefficient of the major classification item to which the minor classification item belongs, and the minor classification item is sorted by the appearance frequency corrected by the coefficient. Text automatic classification program sentences by aggregating the results, characterized in that to execute the comparison operation process of calculating a classification item corresponding to the computer. 属性情報及び見出し情報を有する文章を自動分類する処理をコンピュータに実行させるプログラムであって、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析処理と、抽出した単語をキーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査処理と、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算処理とをコンピュータに実行させることを特徴とする文章自動分類プログラム。A program for causing a computer to execute a process of automatically classifying a sentence having attribute information and heading information, analyzing the sentence having attribute information and heading information, extracting attribute information, and extracting words from parts other than the attribute information. A text analysis process for extracting, a keyword scanning process for comparing the extracted word with a keyword group described by associating the keyword with a small classification item, and counting the appearance frequency of the keyword matching the extracted word for each small classification item; The major classification item to which the minor classification item corresponding to the matched keyword belongs is searched, and the minor classification item is selected from the coefficients set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item. Weighted by the coefficient of the major classification item to which it belongs, sorts the minor classification items by the appearance frequency corrected by the coefficient, and totals the classification results The computer is configured to calculate a classification item to which the sentence corresponds and to search a classification item to which a keyword that matches the word extracted from the heading information belongs and calculate a classification item to which the sentence corresponds. An automatic sentence classification program. キーワード走査処理は抽出した単語をキーワードをコード項目に関連付けて記述した少なくとも一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計する処理を含み、比較演算処理は一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出する処理を含むことを特徴とする請求項11又は12に記載の文章自動分類プログラム。The keyword scanning process includes a process of comparing and collating the extracted words with at least one keyword group described by associating the keywords with the code items, and summing up the appearance frequency of keywords matching the extracted words for each code item, and comparing The calculation process includes a process of searching for a code item corresponding to a matched keyword, sorting the code items according to a keyword appearance frequency for each code item, and calculating a code item corresponding to the sentence. 12. A text automatic classification program according to 12. キーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくとも1つ以上を含むことを特徴とする請求項13に記載の文章自動分類プログラム。At least one or more of the keyword group described by associating the keyword with the code item is a prefecture, city, or village keyword group that uses the name of the prefecture as a keyword, a country name keyword group that uses the country name as a keyword, or a company keyword group that uses the company name as a keyword. The sentence automatic classification program according to claim 13, comprising: 上記文章自動分類プログラムは、更に前記比較演算処理により算出された分類の結果の項目を出力する出力処理とを含み、これらの処理をコンピュータに実行させることを特徴とする請求項11から14の内何れか1項に記載の文章自動分類プログラム。15. The automatic sentence classification program further includes an output process for outputting an item of a classification result calculated by the comparison calculation process, and causes the computer to execute these processes. The automatic sentence classification program according to any one of the above items. 上記文章自動分類プログラムは、更に算出された分類の結果の項目を文章に追記する変換結果格納処理とを含み、これらの処理をコンピュータに実行させることを特徴とする請求項11から15の内何れか1項に記載の文章自動分類プログラム。 16. The automatic sentence classification program further includes a conversion result storing process for adding an item of the calculated classification result to the sentence, and causes the computer to execute these processes. The sentence automatic classification program according to item 1. 上記文章自動分類プログラムは、更に分類した文章を分類の結果の項目毎に蓄積又は/及び配信する処理とを含み、これらの処理をコンピュータに実行させることを特徴とする請求項11から16の内何れか1項に記載の文章自動分類プログラム。The automatic sentence classification program further includes a process of storing or / and distributing a classified sentence for each item of the classification result, and causing the computer to execute these processes. The automatic sentence classification program according to any one of the above items. 上記文章自動分類プログラムは、更に一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計処理と、該統計結果を出力する処理を含み、これらの処理をコンピュータに実行させることを特徴とする請求項11から17の内何れか1項に記載の文章自動分類プログラム。The above sentence automatic classification program further categorizes the results of classification for a certain period for each item, statistically processes the appearance frequency of the set keyword, and statistics of the sentence distribution for each item of the classification result normalized by the number of target sentences 18. The automatic sentence classification program according to claim 11, comprising a classification result statistical process for performing processing and a process for outputting the statistical result, and causing the computer to execute these processes. . キーワード群を出力する処理と、該キーワード群を変更、追加、削除してキーワード群を再構成する処理と再構成したキーワード群を格納する処理を含むことを特徴とする請求項11から18の内何れか1項に記載の文章自動分類プログラム。19. The processing according to claim 11, further comprising: processing for outputting a keyword group; processing for reconfiguring the keyword group by changing, adding, or deleting the keyword group; and processing for storing the reconfigured keyword group. The automatic sentence classification program according to any one of the above items. 請求項11から19の内何れか1項に記載の文章自動分類プログラムを記録したコンピュータ読取り可能な記録媒体。A computer-readable recording medium on which the automatic text classification program according to any one of claims 11 to 19 is recorded. 文章自動分類装置が属性情報を有する文章を自動分類する方法であって、文章自動分類装置において、テキスト解析手段が、属性情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、キーワード走査手段が、抽出した単語を、格納手段に格納され、少なくとも大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、比較演算手段が、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法。 A sentence automatic classification device is a method for automatically classifying sentences having attribute information, and in the sentence automatic classification apparatus, text analysis means analyzes sentences having attribute information, extracts attribute information, and other than attribute information. A text analysis step for extracting a word from the part; a keyword group in which the keyword scanning means stores the extracted word in the storage means, and consists of at least two levels of large and small classification items; A keyword scanning step of performing comparison and collation and totaling the appearance frequency of keywords that match the extracted word for each minor classification item, and the comparison operation means searches for major classification items to which the minor classification item corresponding to the matching keyword belongs, Of the coefficients set for each major classification item for each attribute information extracted in the keyword appearance frequency for each minor classification item, the minor classification item A comparison operation step of weighting by multiplying the coefficient of the large classification item to which the item belongs, sorting the small classification items by the appearance frequency corrected by the coefficient, and calculating the classification item corresponding to the sentence by counting the classification results An automatic sentence classification method characterized by comprising: 文章自動分類装置が属性情報及び見出し情報を有する文章を自動分類する方法であって、文章自動分類装置において、テキスト解析手段が、属性情報及び見出し情報を有する文章を解析し、属性情報を抽出すると共に、属性情報以外の部分から単語を抽出するテキスト解析ステップと、キーワード走査手段が、抽出した単語を、格納手段に格納され、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するキーワード走査ステップと、比較演算手段が、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付をし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出すると共に、見出し情報から抽出した単語と一致するキーワードの属する分類項目を検索して文章が該当する分類項目を算出する比較演算ステップとを有することを特徴とする文章自動分類方法。A method of writing an automatic classifier to automatically classify sentences with attribute information and title information, in text automatic classification device, the text analysis unit analyzes a sentence having the attribute information and heading information, extracts the attribute information A text analysis step for extracting a word from a portion other than the attribute information, and a keyword scanning unit compares the extracted word with a keyword group stored in the storage unit and described in association with the keyword in the small classification item, The keyword scanning step for counting up the appearance frequency of keywords that match the extracted words for each minor category item, and the comparison operation means search for major category items to which the minor category item corresponding to the matched keyword belongs, and for each minor category item Among the coefficients set for each large classification item for each attribute information extracted in the keyword appearance frequency, the large classification item belongs to Multiplying by the coefficient of the category item, weighting it, sorting the small classification items by the appearance frequency corrected by the coefficient, calculating the classification item to which the sentence corresponds by counting the classification results, and extracting words from the heading information And a comparison operation step of calculating a classification item to which the sentence corresponds by searching for a classification item to which a keyword matching the word belongs. キーワード走査ステップは、キーワード走査手段が、抽出した単語を、格納手段に格納され、キーワードをコード項目に関連付けて記述した少なくとも一以上のキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度をコード項目毎に集計するステップを含み、比較演算ステップは、比較演算手段が、一致したキーワードに対応するコード項目を検索し、コード項目毎のキーワード出現頻度でコード項目をソートし、文章が該当するコード項目を算出するステップを含むことを特徴とする請求項21又は22に記載の文章自動分類方法。In the keyword scanning step , the keyword scanning means compares the extracted word with at least one keyword group stored in the storage means and described in association with the keyword, and the appearance of the keyword that matches the extracted word The comparison operation step includes a step of counting the frequency for each code item , and the comparison operation means searches the code item corresponding to the matched keyword, sorts the code item by the keyword appearance frequency for each code item, and the sentence is The sentence automatic classification method according to claim 21 or 22, further comprising a step of calculating a corresponding code item. 格納手段に格納され、キーワードをコード項目に関連付けて記述したキーワード群は都道府県市町村名をキーワードとする都道府県市町村キーワード群、国名をキーワードとする国名キーワード群、企業名をキーワードとする企業キーワード群の内少なくとも1つ以上を含むことを特徴とする請求項23に記載の文章自動分類方法。 The keyword group stored in the storage means and described by associating the keyword with the code item includes the prefecture city keyword group having the prefecture city name as a keyword, the country name keyword group having the country name as a keyword, and the company keyword having the company name as a keyword. The automatic sentence classification method according to claim 23, comprising at least one of the groups. 上記文章自動分類方法は、更に前記比較演算ステップにより算出された分類の結果の項目を、出力手段が出力する分類結果出力ステップとを有することを特徴とする請求項21から24の内何れか1項に記載の文章自動分類方法。25. The automatic sentence classification method according to any one of claims 21 to 24, further comprising a classification result output step in which an output unit outputs the classification result item calculated in the comparison operation step. Automatic sentence classification method according to item. 上記文章自動分類方法は、更に、変換結果格納手段が、算出された分類の結果の項目を文章に追記する変換結果格納ステップとを有することを特徴とする請求項21から25の内何れか1項に記載の文章自動分類方法。 26. The automatic sentence classification method according to any one of claims 21 to 25 , wherein the conversion result storage means further includes a conversion result storage step of adding an item of the calculated classification result to the sentence. Automatic sentence classification method according to item. 上記文章自動分類方法は、更に分類した文章を分類の結果の項目毎に、蓄積手段が格納手段に蓄積するステップ又は/及び出力手段が配信するステップとを有することを特徴とする請求項21から26の内何れか1項に記載の文章自動分類方法。The automatic sentence classification method further comprises the step of accumulating the classified sentences for each item of the result of classification, and / or the step of distributing the output means by the output means. The sentence automatic classification method according to any one of 26. 上記文章自動分類方法は、更に、分類結果統計手段が、一定期間の分類の結果を項目毎に集計し、設定されたキーワードの出現頻度を統計処理し、対象文章数で正規化した分類結果の項目毎の文章分布の統計処理を行う分類結果統計ステップと、出力手段が、該統計結果を出力するステップとを有することを特徴とする請求項21から27の内何れか1項に記載の文章自動分類方法。In the above automatic sentence classification method, the classification result statistical means further calculates the classification result for a certain period for each item, statistically processes the appearance frequency of the set keyword, and normalizes the number of target sentences. The sentence according to any one of claims 21 to 27, further comprising: a classification result statistical step for performing statistical processing of the sentence distribution for each item; and an output means for outputting the statistical result. Automatic classification method. 出力手段が、キーワード群を出力するステップと、該キーワード群を、入力手段が、変更、追加、削除してキーワード群を再構成するステップと、再構成されたキーワード郡を、蓄積手段が格納手段に格納するステップとを含むことを特徴とする請求項21から28の内何れか1項に記載の文章自動分類方法。 An output means outputs a keyword group, an input means reconfigures the keyword group by changing, adding, or deleting the keyword group, and a storage means stores the reconfigured keyword group. The method for automatically classifying sentences according to any one of claims 21 to 28, further comprising: 編集端末と、サーバーシステムと、編集端末とサーバーシステムを接続するネットワークから構成された文章自動分類装置が、属性情報を有する文書を自動分類する文章自動分類方法であって、編集端末の入力手段が、文章を編集端末に入力するステップと、編集端末の出力手段が該文章をサーバーシステムに送信して分類処理を要求するステップと、サーバーシステムの入力手段が文章及び分類処理要求を受信するステップと、サーバーシステムのテキスト解析手段が該文章を解析し、属性情報を抽出すると共に属性情報以外の部分から単語を抽出するステップと、サーバーシステムのキーワード走査手段が、抽出した単語を、サーバーシステムの格納手段に格納され、少なくとも大小分類項目の二階層からなり、キーワードを小分類項目に関連付けて記述したキーワード群と比較照合し、抽出した単語と一致するキーワードの出現頻度を小分類項目毎に集計するステップと、サーバーシステムの比較演算手段が、一致したキーワードに対応する小分類項目が属する大分類項目を検索し、小分類項目毎のキーワード出現頻度に抽出した属性情報毎の大分類項目毎に設定された係数のうち該小分類項目が属する大分類項目の係数を乗じて重み付けをし、該係数で修正した出現頻度で小分類項目をソートし、分類結果を集計して文章が該当する分類項目を算出するステップと、サーバーシステムの出力手段が、分類処理結果を編集端末に送信するステップと、編集端末の入力手段、サーバーシステムからの分類処理結果を受信するステップとを有することを特徴とする文章自動分類方法。 And editing terminal, and the server system, has been sentence automatic classification device configuration from a network that connects the editing terminal and a server system, a document having an attribute information a text automatic classification method for automatic classification, the input means of the editing terminal , inputting the text to the editing terminal, comprising: output means for editing terminal requests the classification process by sending the text to the server system, the method comprising: input means server system receives the text and classification processing request A text analysis unit of the server system analyzes the sentence to extract attribute information and a word from a part other than the attribute information; and a keyword scanning unit of the server system stores the extracted word in the server system. stored in the unit consists of two hierarchies of at least magnitude category, keyword small categories Association compared against the keyword group that describes the steps of counting the frequency of occurrence of the keyword that matches the extracted word for each minor classification items, the comparison operation means the server system, the minor classification items corresponding to the matched keyword The major classification item to which the minor classification item belongs is searched and weighted by multiplying the coefficient set for each major classification item for each attribute information extracted for the keyword appearance frequency for each minor classification item by the coefficient of the major classification item to which the minor classification item belongs. And sorting the small classification items with the appearance frequency corrected by the coefficient, calculating the classification items by adding up the classification results, and the output means of the server system sending the classification processing results to the editing terminal steps and, the input means of the editing terminal, text automatic classification, characterized by a step of receiving the classification processing result from the server system Law.
JP2001225609A 2001-07-26 2001-07-26 Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program Expired - Fee Related JP4711556B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001225609A JP4711556B2 (en) 2001-07-26 2001-07-26 Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001225609A JP4711556B2 (en) 2001-07-26 2001-07-26 Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program

Publications (2)

Publication Number Publication Date
JP2003036261A JP2003036261A (en) 2003-02-07
JP4711556B2 true JP4711556B2 (en) 2011-06-29

Family

ID=19058574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001225609A Expired - Fee Related JP4711556B2 (en) 2001-07-26 2001-07-26 Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program

Country Status (1)

Country Link
JP (1) JP4711556B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451130B2 (en) * 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
JPWO2007060727A1 (en) * 2005-11-25 2009-05-07 三菱スペース・ソフトウエア株式会社 Literature retrieval apparatus, method and program
JP4398461B2 (en) * 2005-11-25 2010-01-13 三菱スペース・ソフトウエア株式会社 Literature retrieval device, literature retrieval method, and literature retrieval program
JP4886014B2 (en) * 2009-09-16 2012-02-29 三菱スペース・ソフトウエア株式会社 Literature retrieval device, literature retrieval method, and literature retrieval program
JP2016189036A (en) * 2013-08-23 2016-11-04 株式会社Ubic Document fractionation system, document fractionation method and document fractionation program
EP3109774A4 (en) * 2014-02-19 2017-11-01 Teijin Limited Information processing device and information processing method
JP5746403B2 (en) * 2014-06-18 2015-07-08 株式会社Ubic Document separation system, method for controlling document separation system, and control program for document separation system
CN111126879B (en) * 2019-12-31 2024-05-31 厦门美契信息技术有限公司 Green melt item selection evaluation method

Also Published As

Publication number Publication date
JP2003036261A (en) 2003-02-07

Similar Documents

Publication Publication Date Title
Finn et al. Genre classification and domain transfer for information filtering
US6826576B2 (en) Very-large-scale automatic categorizer for web content
CN104850574B (en) A kind of filtering sensitive words method of text-oriented information
JP4097602B2 (en) Information analysis method and apparatus
US7945600B1 (en) Techniques for organizing data to support efficient review and analysis
US7707204B2 (en) Factoid-based searching
US9251248B2 (en) Using context to extract entities from a document collection
US20110270815A1 (en) Extracting structured data from web queries
US20070112720A1 (en) Two stage search
CN112231494B (en) Information extraction method and device, electronic equipment and storage medium
CN102609433A (en) Method and system for recommending query based on user log
KR20130095171A (en) Forensic system and forensic method, and forensic program
Banerjee et al. Bengali question classification: Towards developing qa system
CN110968800A (en) Information recommendation method and device, electronic equipment and readable storage medium
CN111078835A (en) Resume evaluation method and device, computer equipment and storage medium
US20230419026A1 (en) Systems and methods for document analysis to produce, consume and analyze content-by-example logs for documents
KR20160149050A (en) Apparatus and method for selecting a pure play company by using text mining
JP4711556B2 (en) Automatic sentence classification apparatus, automatic sentence classification program, automatic sentence classification method, and computer-readable recording medium having recorded automatic sentence classification program
Tüselmann et al. Are end-to-end systems really necessary for NER on handwritten document images?
EP0822503A1 (en) Document retrieval system
Tahir et al. FNG-IE: an improved graph-based method for keyword extraction from scholarly big-data
Hamdi et al. Machine learning vs deterministic rule-based system for document stream segmentation
CN111737607A (en) Data processing method, data processing device, electronic equipment and storage medium
KR100501079B1 (en) Application system for network-based search service using resemblant words and method thereof
CN114417010A (en) Knowledge graph construction method and device for real-time workflow and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110322

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees