JP2002269115A - キーワード抽出装置およびキーワード抽出方法 - Google Patents

キーワード抽出装置およびキーワード抽出方法

Info

Publication number
JP2002269115A
JP2002269115A JP2001065121A JP2001065121A JP2002269115A JP 2002269115 A JP2002269115 A JP 2002269115A JP 2001065121 A JP2001065121 A JP 2001065121A JP 2001065121 A JP2001065121 A JP 2001065121A JP 2002269115 A JP2002269115 A JP 2002269115A
Authority
JP
Japan
Prior art keywords
word
phrase
extracted
keyword
modification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001065121A
Other languages
English (en)
Inventor
Atsuyuki Goto
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001065121A priority Critical patent/JP2002269115A/ja
Publication of JP2002269115A publication Critical patent/JP2002269115A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語の出現頻度、単語に対する修飾度、単語
の文書中における生存期間などを点数化してキーワード
性を判定することができるキーワード抽出装置およびキ
ーワード抽出方法を提供すること。 【解決手段】 入力文書から切り出した1文内を単語ご
とに分割し、品詞を付与して品詞の並びに形態素解析
し、この分割された単語を句レベルまでにまとめあげて
合成し、構文解析13によって句間の構文解析を行う
(S200〜203)。構文解析後に構文解析に誤りが
ないかどうかの確認として、名詞句の抽出を行い(S2
04)、修飾度の計算、名詞句出現頻度の計算、名詞句
の登録を行う(S205〜207)。全ての文の処理を
終えた場合(S208;Y)、単語の生存期間計算を行
う(S209)。単語の出現頻度、修飾度、生存期間を
評価式で計算して評価し、名詞句の集合からキーワード
を抽出する(S211)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語文に含ま
れているキーワードを抽出するキーワード抽出装置およ
びキーワード抽出方法に関する。
【0002】
【従来の技術】従来のキーワード抽出システムは、名詞
句を構成する文字列の出現頻度を点数化し、その点数の
大小によりキーワード性を評価したり、シソーラス辞
書、異表記辞書などを使用して抽出精度を高めることに
よる評価を行っている。
【0003】
【発明が解決しようとする課題】しかしながら、出現頻
度の高い単語が必ずしもキーワード性が高いわけではな
く、文書中にたった一度しか出現しない単語でもキーワ
ードになる場合がある。また、単語の出現頻度だけに着
目したキーワード抽出方法では、一度した出現しない単
語をキーワードとして抽出することができない。最近で
は、これらキーワード抽出に関して、名詞句に対する修
飾度、生存期間を点数化してキーワード評価式に組み入
れた方式などの技術が求められるようになってきてい
る。そこで、本発明の目的は、所定の評価式を用いるこ
とにより、単語の出現頻度に加えて、単語に対する修飾
度、単語の文書中における生存期間などを点数化してキ
ーワード性を判定することができるキーワード抽出装置
およびキーワード抽出方法を提供することである。
【0004】
【課題を解決するための手段】請求項1記載の発明で
は、受領した文章を一文ずつに分割し、この分割した各
文に含まれている単語を抽出する単語抽出手段と、前記
単語抽出手段によって抽出された各単語の出現頻度を計
数する出現頻度計数手段と、前記単語抽出手段によって
抽出された各単語による他の単語への修飾関係を示す修
飾度を算出する修飾度算出手段と、前記単語抽出手段に
よって抽出された各単語が受領した文章中にどのくらい
長く存在しているかを表す単語の生存期間を算出する生
存期間算出手段と、前記出現頻度計数手段によって計数
された出現頻度、前記修飾度算出手段によって算出され
た修飾度および前記生存期間算出手段によって算出され
た生存期間を所定の評価式に従って評価する評価手段
と、前記評価手段による評価結果に基づいて、前記単語
抽出手段により抽出された所定の単語をキーワードとし
て抽出するキーワード抽出手段と、を備えたことによ
り、前記の目的を達成する。
【0005】請求項2記載の発明では、請求項1記載の
発明において、前記単語抽出手段によって抽出された単
語を名詞句、動詞句、接続詞句などの句ごとに合成する
句合成手段をさらに備え、前記出現頻度計数手段は、前
記句合成手段によって合成された名詞句のうち核となる
単語の出現頻度を計数することにより、前記の目的を達
成する。請求項3記載の発明では、請求項1または請求
項2記載の発明において、前記修飾度算出手段は、前記
句合成手段によって合成された各句同士の係り受けを算
出することで名詞句に対する修飾度を算出することによ
り、前記の目的を達成する。
【0006】請求項4記載の発明では、受領した文章を
一文ずつに分割し、この分割した各文に含まれている単
語を抽出する第1のステップと、前記第1のステップに
よって抽出された各単語の出現頻度を計数する第2のス
テップと、前記第1のステップによって抽出された各単
語による他の単語への修飾関係を示す修飾度を算出する
第3のステップと、前記第1のステップによって抽出さ
れた各単語が受領した文章中にどのくらい長く存在して
いるかを表す単語の生存期間を算出する第4のステップ
と、前記第2のステップで計数された出現頻度、前記第
3のステップで算出された修飾度および前記第4のステ
ップで算出された生存期間を所定の評価式に従って評価
する第5のステップと、前記第5のステップによる評価
結果に基づいて、前記第1のステップにより抽出された
所定の単語をキーワードとして抽出する第6ステップ
と、からなることにより、前記の目的を達成する。
【0007】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図1ないし図12を参照して詳細に説明する。
図1は、本実施の形態に係るキーワード抽出装置の概略
構成を示した図である。キーワード抽出装置100は、
言語処理部10およびキーワード抽出部20を備えてい
る。言語処理部10は、形態素解析11、単語合成(c
hunking)12および構文解析13を備えてい
る。また、キーワード抽出部20は、名詞句出現頻度計
算21、単語修飾度計算22、単語生存期間計算23、
評価式による単語の重み計算24および単語の順位づけ
25を備えている。本実施の形態のキーワード抽出装置
100では、自然言語で記述された文書が言語処理部1
0に入力された場合、キーワード抽出部20によってキ
ーワードリストを出力されるようになっている。
【0008】図2は、キーワード抽出装置によるキーワ
ード抽出処理の処理手順を示したフローチャートであ
る。以下、図2を参照しながら本実施の形態に係るキー
ワード抽出処理の流れについて説明する。また、図3
は、キーワード抽出装置によってキーワード抽出する自
然言語文の一例を示した図である。図3(a)は自然言
語文を、図3(b)は、図3(a)を形態素解析した結
果を、図3(c)は品詞を付与されて分割された単語を
句レベルまでに合成した結果を示した図である。
【0009】言語処理部10の形態素解析11は、入力
された文書(図3(a)参照)から1文づつ切り出し
(ステップ200)、さらに切り出した1文内を単語ご
とに分割して、品詞を付与して品詞の並びに分解(形態
素解析)する(ステップ201;図3(b)参照)。単
語合成12では、品詞を付与されて分割された単語を品
詞の接続規則をもとに、句(フレーズ)レベルまでにま
とめあげて(chunking)合成する(ステップ2
02;図3(c)参照)。句は、名詞句、形容詞句、動
詞句、副詞句、前置詞句、接続詞、助詞、関係詞句など
に分類される。構文解析13では、まとめあげた句を入
力として句間の係り受け解析(構文解析)を行う(ステ
ップ203)。この際、名詞句の核となる名詞(hea
d noun)をマーキングする。
【0010】次に、構文解析を行う(ステップ203)
が、その前に図2の処理手順では省略されているが、構
文解析を行う準備としての名詞句の抽出を行う。図3に
示したように、chunkigの後では、1文から名詞
句を抽出できるようになる。図4は、データ領域NPの
データ構造の一例を示した図である。抽出された名詞句
npは、所定のデータ構造をもつ領域NPに格納する。
名詞句は、名詞句を構成する単語をリストとして表現
し、データ領域NPへ登録する(図4および図5参
照)。図5は、登録される単語リストのデータの一例と
単語ツリー構造を示した図である。単語は、単語ツリー
に登録され、単語リストのデータは、単語ツリーのノー
ドへのポインタになる。また、図6は、C言語における
データ構造の一例を示した図である。
【0011】次に、句レベルでの構文解析(ステップ2
03)について説明する。図7は、構文解析結果を理解
しやすくするために単語にラベルをつけた自然言語文と
構文木を示した図である。図3(a)に示した例文の構
文解析では、名詞句を修飾する句はないが、chunk
ingにより複数の品詞が合成されてできたNPは、h
ead nounを中心として図8に示したような修飾
構造になっている。この修飾構造は、head nou
nが各単語の被修飾子になるので、head noun
が判明した時点で明らかになる。chunkingフェ
ーズで名詞句内の修飾関係が分かり、構文解析フェーズ
で句間の修飾関係が分かるようになっている。修飾度の
計算は、名詞および名詞句に対する修飾関係の深さを点
数化して行う。名詞句の修飾関係の重みづけは、図9の
ようになっている。
【0012】そして、構文解析後(ステップ203)に
構文解析に誤りがないかどうかの確認として、上述した
名詞句の抽出を再度行う(ステップ204)。名詞句n
pを抽出し、データ領域NP.npに格納する。次に、
修飾度の計算を行う(ステップ205)。図8では、c
ommissionに対する修飾度は、a*1+b*5
となる。aは定冠詞に対する係数、bは形容詞/名詞に
対する係数となる。例えば、「Ten years o
ld boy who are hyperactiv
e are difficult」という例文の場合、
名詞句は「Ten year old boy」であ
り、関係詞句は「who are hyperacti
ve」により修飾されていることが構文解析によりわか
る。関係詞句による修飾度係数をcとすると、a*3+
c*(a*1)となる。関係詞句内の品詞の評価は、図
9に示した関係式を用いて評価する。
【0013】次に、名詞句出現頻度の計算(ステップ2
06)、すなわち単語の生存期間の記録について説明す
る。名詞句の出現頻度計算は、head nounを中
心に行う。その際、head nounに関して、単複
同一視化、包含関係の考慮、冠詞は無視などの操作を施
しながら出現頻度を計算する。名詞句NPは、2分木構
造により管理される。2分木のノードは、図10で示さ
れる構造になる。2分木に名詞句を登録する際に、単語
リスト中のデータアドレスの大小関係を比較することに
より、名詞句の包含関係と、出現頻度を計算できる。す
なわち、名詞句を構成する単語リストのデータアドレス
が比較対象と同じであったら、同一の名詞句であるので
出現回数をインクリメントすればよいことになる。
【0014】また、名詞句包含関係は、head no
unを含む部分文字列が比較対象と包含関係にあるかど
うか検査すればよい。このとき、head nounは
一致する必要がある。例えば、「informatio
n technology」と「informatio
n technology leader」は、別々の
名詞句になる。また、例えばBusiness Lea
dersを名詞句、Asian Business
Leadersを名詞句とすると、名詞句、のh
eadnounはLeadersであるので、Lead
ersを中心とした部分文字列の比較を行えばよい。こ
の例では、Business Leadersが名詞句
に含まれるので、名詞句は名詞句に含まれること
になる。キーワードとしては、名詞句ではなく名詞句
が選択されることになる。
【0015】包含関係にある場合の名詞句の出現頻度
は、NPiがn個の単語から構成され、NPjがm個の
単語から構成されるとすると、NPiがNPjを包含す
る場合のNPiの出現回数は、1+(m/n)となる。
単複同一視化は、head nounの評価を常に原形
(root)で行うようにする。これは、名詞句を構成
する単語を単語ツリーに登録するときに、登録する単語
がhead nounである場合は、head nou
nの原形を登録すればよい。このように、一文から名詞
句のみを取り出し、所定のデータ後続をもつ領域に格納
する名詞句の登録を行う(ステップ207)。
【0016】そして、入力された文章中のすべての文の
処理を終えた場合(ステップ208;Y)、単語の生存
期間計算を行う(ステップ209)。単語(名詞句)の
生存期間は次のようにして求める。ある名詞句の生存期
間を求めるには、名詞句のhead nounが初めて
出現した文をマーキングし、これをSiとする。文書を
構成するSi以降のすべての文に対して、このhead
nounが生存するかどうか検査をする。Sj以降、
このhead nounが生存しないとしたら、この名
詞句の生存期間は、(i−j)/nということになる。
なお、nはこの文書を構成する文の数を表している。生
存期間を先に示したデータ構造NPで示すならば、文書
中の名詞句の数をnとすると、ある名詞句の生存期間
は、(NP.e−NP.s)/nということになる。こ
こで、単語の生存期間とは、ある単語が文書中にどの程
度長く生存しているかを数値で示したものである。
【0017】上述した形態素解析、chunking、
構文解析により、キーワード抽出に必要な情報となる名
詞句と名詞句への修飾度が分かることにより、単語の出
現頻度、修飾度、生存期間の計算が名詞句内のhead
nounに対して構文解析の後のフェーズで行われ
る。次に、単語の出現頻度、修飾度、生存期間を図11
に示したような評価式で計算してキーワード性を評価す
る(ステップ210)。図11は、キーワード性を評価
する評価式を示した図である。図11の式において、W
fは出現頻度から計算した重みを、Wmは修飾関係から
計算した重みを、Wlは単語の生存期間を、α、β、γ
は適当な係数(文書が属するカテゴリ、例えば技術系の
文書、文学的な文書などにより変化する値)を表してい
る。そして、単語の重みの計算を行う。評価式を使用し
て、すべてのi(i=1〜n)に対してα*(NPi.
f)2+β*(NPi.q)2+γ*((NPi.s−
NPi.e)/n)2を計算する。
【0018】例えば、N文から構成される文書に単語が
第i文から第j文までにわたり生存したとすると、この
単語の生存期間は、(j−i)/Nという式で定義する
ことができる。この数値が1に近くなるほど、単語の生
存期間は長く、キーワード性が高いということになる。
すなわち、どのような単語が相対的に多いか、どのよう
な単語の説明に多くの言葉が使用されているか、単語の
使われ方は文章の中でどのように変化していくかなどを
評価するのである。図11に示した評価式は、このよう
な評価行為を単純化したものである。この評価式は対象
言語を選ばない汎用性があり、シソーラス辞書、異表記
辞書などの言語特有の辞書を必要としない可搬性を兼ね
備えている。なお、評価式は、図12のように3次元空
間における原点からのある種の距離に図示することがで
きる。原点からの距離が大きいほど、キーワード性が高
くなる。図12のような3次元空間で各名詞句の原点か
らの距離を比較し、順位をつけることにより、名詞句の
集合からキーワードを抽出することができる(ステップ
211)。
【0019】以上のように、本実施の形態のキーワード
抽出装置では、キーワード抽出の対象となる文書カテゴ
リが、出現頻度ベースのキーワード抽出法よりも広く、
単語の出現頻度ベースのキーワード抽出を用いるので、
同じ単語が数多く出現する場合にも有効であり、新聞記
事や技術文書などの客観的な説明文に対して、また、文
学的な文書に対しても利用することができる。
【0020】
【発明の効果】請求項1記載の発明では、出現頻度計数
手段によって計数された出現頻度、修飾度算出手段によ
って算出された修飾度および生存期間算出手段によって
算出された生存期間を所定の評価式に従って評価する評
価手段と、評価手段による評価結果に基づいて、単語抽
出手段により抽出された所定の単語をキーワードとして
抽出するキーワード抽出手段と、を具備したので、文書
の内容を重視したキーワード抽出、シソーラス辞書、異
表記辞書などの言語特有の辞書を使用しないでのキーワ
ード抽出をすることができる。
【0021】請求項2記載の発明では、単語抽出手段に
よって抽出された単語を名詞句、動詞句、接続詞句など
の句ごとに合成する句合成手段をさらに備え、出現頻度
計数手段は、句合成手段によって合成された名詞句のう
ち核となる単語の出現頻度を計数するので、キーワード
抽出の対象となる文書カテゴリが、出現頻度ベースのキ
ーワード抽出法よりも広く、新聞記事や技術文書などの
客観的な説明文に対して、また、文学的な文書に対して
も利用することができる。請求項3記載の発明では、修
飾度算出手段は、句合成手段によって合成された各句同
士の係り受けを算出することで名詞句に対する修飾度を
算出するので、キーワード抽出の対象となる文書カテゴ
リが、出現頻度ベースのキーワード抽出法よりも広く、
新聞記事や技術文書などの客観的な説明文に対して、ま
た、文学的な文書に対しても利用することができる。
【0022】請求項4記載の発明では、第2のステップ
で計数された出現頻度、第3のステップで算出された修
飾度および第4のステップで算出された生存期間を所定
の評価式に従って評価する第5のステップと、第5のス
テップによる評価結果に基づいて、第1のステップによ
り抽出された所定の単語をキーワードとして抽出する第
6ステップと、からなるので、文書の内容を重視したキ
ーワード抽出、シソーラス辞書、異表記辞書などの言語
特有の辞書を使用しないでのキーワード抽出をすること
ができる。
【図面の簡単な説明】
【図1】本実施の形態に係るキーワード抽出装置の概略
構成を示した図である。
【図2】キーワード抽出装置によるキーワード抽出処理
の処理手順を示したフローチャートである。
【図3】キーワード抽出装置によってキーワード抽出す
る自然言語文の一例を示した図である。
【図4】データ領域NPのデータ構造の一例を示した図
である。
【図5】登録される単語リストのデータの一例と単語ツ
リー構造を示した図である。
【図6】C言語におけるデータ構造の一例を示した図で
ある。
【図7】構文解析結果を理解しやすくするために単語に
ラベルをつけた自然言語文と構文木を示した図である。
【図8】修飾構造の一例を示した図である。
【図9】名詞句の修飾関係の重みづけの関係式を示した
図である。
【図10】名詞句npの2分木構造を示した図である。
【図11】キーワード性を評価する評価式を示した図で
ある。
【図12】評価式を3次元空間における原点からの距離
として示した図である。
【符号の説明】
10 言語処理部 11 形態素解析 12 単語合成(chunking) 13 構文解析 20 キーワード抽出部 21 名詞句出現頻度計算 22 単語修飾度計算 23 単語生存期間計算 24 評価式による単語の重み計算 25 単語の順位づけ 100 キーワード抽出装置

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 受領した文章を一文ずつに分割し、この
    分割した各文に含まれている単語を抽出する単語抽出手
    段と、 前記単語抽出手段によって抽出された各単語の出現頻度
    を計数する出現頻度計数手段と、 前記単語抽出手段によって抽出された各単語による他の
    単語への修飾関係を示す修飾度を算出する修飾度算出手
    段と、 前記単語抽出手段によって抽出された各単語が受領した
    文章中にどのくらい長く存在しているかを表す単語の生
    存期間を算出する生存期間算出手段と、 前記出現頻度計数手段によって計数された出現頻度、前
    記修飾度算出手段によって算出された修飾度および前記
    生存期間算出手段によって算出された生存期間を所定の
    評価式に従って評価する評価手段と、 前記評価手段による評価結果に基づいて、前記単語抽出
    手段により抽出された所定の単語をキーワードとして抽
    出するキーワード抽出手段と、を備えたことを特徴とす
    るキーワード抽出装置。
  2. 【請求項2】 前記単語抽出手段によって抽出された単
    語を名詞句、動詞句、接続詞句などの句ごとに合成する
    句合成手段をさらに備え、 前記出現頻度計数手段は、前記句合成手段によって合成
    された名詞句のうち核となる単語の出現頻度を計数する
    ことを特徴とする請求項1記載のキーワード抽出装置。
  3. 【請求項3】 前記修飾度算出手段は、前記句合成手段
    によって合成された各句同士の係り受けを算出すること
    で名詞句に対する修飾度を算出することを特徴とする請
    求項1または請求項2記載のキーワード抽出装置。
  4. 【請求項4】 受領した文章を一文ずつに分割し、この
    分割した各文に含まれている単語を抽出する第1のステ
    ップと、 前記第1のステップによって抽出された各単語の出現頻
    度を計数する第2のステップと、 前記第1のステップによって抽出された各単語による他
    の単語への修飾関係を示す修飾度を算出する第3のステ
    ップと、 前記第1のステップによって抽出された各単語が受領し
    た文章中にどのくらい長く存在しているかを表す単語の
    生存期間を算出する第4のステップと、 前記第2のステップで計数された出現頻度、前記第3の
    ステップで算出された修飾度および前記第4のステップ
    で算出された生存期間を所定の評価式に従って評価する
    第5のステップと、 前記第5のステップによる評価結果に基づいて、前記第
    1のステップにより抽出された所定の単語をキーワード
    として抽出する第6ステップと、からなることを特徴と
    するキーワード抽出方法。
JP2001065121A 2001-03-08 2001-03-08 キーワード抽出装置およびキーワード抽出方法 Pending JP2002269115A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001065121A JP2002269115A (ja) 2001-03-08 2001-03-08 キーワード抽出装置およびキーワード抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001065121A JP2002269115A (ja) 2001-03-08 2001-03-08 キーワード抽出装置およびキーワード抽出方法

Publications (1)

Publication Number Publication Date
JP2002269115A true JP2002269115A (ja) 2002-09-20

Family

ID=18923829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001065121A Pending JP2002269115A (ja) 2001-03-08 2001-03-08 キーワード抽出装置およびキーワード抽出方法

Country Status (1)

Country Link
JP (1) JP2002269115A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117351A (ja) * 2006-11-08 2008-05-22 Nomura Research Institute Ltd 検索システム
JP2008192171A (ja) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd キーワード抽出システム
JP2013054558A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 情報抽出装置、情報抽出方法、情報抽出プログラム
US9158756B2 (en) 2012-03-30 2015-10-13 International Business Machines Corporation Computer-implemented method, program, and system for identifying non-self-descriptive terms in electronic documents
CN111814770B (zh) * 2020-09-04 2021-01-15 中山大学深圳研究院 一种新闻视频的内容关键词提取方法、终端设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008117351A (ja) * 2006-11-08 2008-05-22 Nomura Research Institute Ltd 検索システム
JP2008192171A (ja) * 2008-04-04 2008-08-21 Nomura Research Institute Ltd キーワード抽出システム
JP2013054558A (ja) * 2011-09-05 2013-03-21 Nippon Telegr & Teleph Corp <Ntt> 情報抽出装置、情報抽出方法、情報抽出プログラム
US9158756B2 (en) 2012-03-30 2015-10-13 International Business Machines Corporation Computer-implemented method, program, and system for identifying non-self-descriptive terms in electronic documents
CN111814770B (zh) * 2020-09-04 2021-01-15 中山大学深圳研究院 一种新闻视频的内容关键词提取方法、终端设备及介质

Similar Documents

Publication Publication Date Title
Bikel et al. An algorithm that learns what's in a name
McEnery et al. Corpus linguistics: Method, theory and practice
Al-Sabbagh et al. YADAC: Yet another Dialectal Arabic Corpus.
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US9361293B2 (en) Using renaming directives to bootstrap industry-specific knowledge and lexical resources
Washington et al. Finite-state morphological transducers for three Kypchak languages.
Saloot et al. An architecture for Malay Tweet normalization
Gupta et al. Text summarization of Hindi documents using rule based approach
WO2007105202A2 (en) Automatic reusable definitions identification (rdi) method
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
CN111382571A (zh) 一种信息抽取方法、***、服务器和存储介质
JP2003271592A (ja) テキスト生成方法及びテキスト生成装置
Galieva et al. Corpus based tatar lexicography: Verbs in tatwordnet
JP2002269115A (ja) キーワード抽出装置およびキーワード抽出方法
Bjerva Multi-class animacy classification with semantic features
Antić Python Natural Language Processing Cookbook: Over 50 recipes to understand, analyze, and generate text for implementing language processing tasks
JP2003167898A (ja) 情報検索システム
Sukharev et al. Parallel corpus approach for name matching in record linkage
Don Processing natural Malay texts: A data-driven approach
Ji et al. Analysis and repair of name tagger errors
JP2006139708A (ja) テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム
Li et al. Root and phrasal diminutive markers in Gan Chinese
Kilgarriff Putting the corpus into the dictionary
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070327