JP2006323594A - 同義語抽出システムおよび同義語抽出方法 - Google Patents

同義語抽出システムおよび同義語抽出方法 Download PDF

Info

Publication number
JP2006323594A
JP2006323594A JP2005145676A JP2005145676A JP2006323594A JP 2006323594 A JP2006323594 A JP 2006323594A JP 2005145676 A JP2005145676 A JP 2005145676A JP 2005145676 A JP2005145676 A JP 2005145676A JP 2006323594 A JP2006323594 A JP 2006323594A
Authority
JP
Japan
Prior art keywords
synonym
information indicating
name
action
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005145676A
Other languages
English (en)
Inventor
Tadashi Okamine
正 岡峰
Keitoku Isoda
佳徳 礒田
Takeshi Naganuma
武史 長沼
Masaharu Kurakake
正治 倉掛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2005145676A priority Critical patent/JP2006323594A/ja
Publication of JP2006323594A publication Critical patent/JP2006323594A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 特定の場所における行動の同義語を決定することのできる手段を提供する。
【解決手段】 同義語抽出システム10は、タスクオントロジ20からドメインとタスクを抽出する場所・行動読出部41、同義語辞書21にてタスクとその同義語とに展開する同義語展開部42、同義語展開したタスクとドメインを組合せてクエリとしWebページを検索するWeb検索部44、検索結果の各ページから状況表現語候補を抽出する状況表現語候補抽出部45、状況表現語の共起度を計算する共起度計算部46、共起度にて状況表現語として有効なものを判定する状況表現語判定部47、状況表現語の類似性からそのドメインのタスクの状況依存同義語を決定する状況依存同義語決定部48、状況依存同義語をタスクオントロジのドメインとタスクとに関連付けられる形式で同義語テーブル24に書き込む同義語書込部49を備える。
【選択図】 図1

Description

本発明は、特定の場所に関連した行動の同義語を抽出する同義語抽出システムおよび同義語抽出方法に関するものである。
ユーザがWeb上のサービスを利用するためのWebページ検索手段として場所・行動データベース(タスクオントロジ)を用いる非特許文献1に記載の方法がある。ユーザはデータベースの中から場所名(ドメイン)を選択し、その場所で実行可能な行動名(タスク)の候補を検索し、候補の中からタスク、サブタスク(タスクを実現するためのタスク)を選択していくことでサービスを容易に発見・利用できる。このとき、ユーザが所持する移動端末に取り付けられたセンサなどを利用してユーザの状況を把握し、その状況において典型的な行動名が候補の中の上位に表示されることで、選択の負担が軽減される。
行動名を検索する際にあらかじめ登録されている行動名だけでなく、同じ意味を持つさまざまな同義語を用いた検索を可能とすることでユーザが行動名を検索しやすくなる。これを実現するためには、その行動名の同義語をあらかじめ抽出しておく必要がある。
ユーザの検索にかかる負担を軽減するために、あらかじめ用意された同義語辞書を利用してWebページを検索する特許文献1の方法が知られている。この方法では、より幅広いWebページの検索を行うため、ユーザによって与えられた検索語のみでなく、同義語辞書を用いて検索語を同義語に展開したり、語幹のみを抽出したりして検索を行っている。そのため、さまざまな表現や活用形や時制などの違いを吸収して多くのWebページを集めることができる。
特開平11−15846号公報 長沼武史、菊地悠、稲村浩、倉掛正治、「タスク知識に基づくモバイルユーザ支援システム」、情報処理学会知能と複雑系研究会、2004年、SIGICS−135
しかし、上記従来技術による同義語抽出システムは、以下に示すような問題点があった。すなわち、上記特許文献1の技術を用いて行動名を検索するときには、あらかじめ定義された同義語辞書を利用することになる。一般的な同義語辞書ではある語に対する一般的な同義語が全て登録されている。そのため、特定の場所ではその行動名の同義語としては扱われない語も検索語に加えられることになり、ユーザが行動を検索するときの効率を低下させる問題があった。
本発明は、かかる事情に鑑みてなされたものであり、その目的は、特定の場所に関連した行動の同義語を決定することのできる同義語抽出システムおよび同義語抽出方法を提供することにある。
本発明は、文書を蓄積したデータベースに接続された同義語抽出システムであって、場所名を示す情報と当該場所名に関連した行動名を示す情報とを蓄積した場所・行動データベースと、場所名を示す情報と行動名を示す情報とを場所・行動データベースから読み出す場所・行動読出手段と、行動名の同義語を示す情報を蓄積した同義語辞書と、場所・行動読出手段によって読み出された行動名を示す情報から、同義語辞書を用いて当該行動名の同義語を示す情報を抽出する同義語展開手段と、行動名を示す情報と場所名を示す情報とを組み合わせたクエリと、同義語展開手段によって抽出された当該行動名の同義語を示す情報と場所名を示す情報とを組み合わせたクエリとを用いて、データベースを検索する検索手段と、検索手段によって検索された文書から、自立語を抽出する状況表現語候補抽出手段と、クエリを用いて検索手段により検索された文書数に対する状況表現語候補抽出手段によって抽出された自立語が含まれる文書数の比である共起度を計算する共起度計算手段と、共起度計算手段によって計算された共起度によって自立語が状況表現語か否かを判定する状況表現語判定手段と、状況表現語判定手段によって状況表現語と判定された行動名に係る状況表現語と、状況表現語判定手段によって状況表現語と判定された行動名の同義語に係る状況表現語とが一致する度合を算出し、あらかじめ設定された閾値以上の一致度を持つ同義語を状況依存同義語と決定する状況依存同義語決定手段と、を備えたことを特徴とする。
この構成によれば、行動名と場所名とを組み合わせたクエリと、行動名の同義語と場所名とを組み合わせたクエリとを用いてデータベースを検索し、検索された文書から自立語を抽出し、クエリを用いて検索された文書数に対する抽出された自立語が含まれる文書数の比である共起度を計算して、共起度に基づいて状況表現語を決定し、行動名に係る状況表現語と行動名の同義語に係る状況表現語とが一致する度合を算出し、あらかじめ設定された閾値以上の一致度を持つ同義語を状況依存同義語と決定するので、場所名を含むクエリにより検索されたWebページ中の状況表現語が類似する同義語を抽出することができ、特定の場所名に関連した行動名の同義語を決定することができる。
この場合、場所名を示す情報と、行動名を示す情報と、状況依存同義語決定手段によって決定された行動状況依存同義語を示す情報とをひとつのデータセットとして蓄積する同義語テーブルを備えることが好適である。
この構成によれば、同義語テーブルに、場所名と、行動名と、状況依存同義語決定手段によって決定された行動状況依存同義語とをひとつのデータセットとして蓄積するので、当該場所名、行動名、行動状況依存同義語をひとつのデータセットとして利用することができる。
この場合、行動名と当該行動名の同義語との語幹を示す情報を蓄積した語幹辞書と、行動名を示す情報と、同義語展開手段によって抽出された当該行動名の同義語を示す情報とから、語幹辞書を参照して、行動名とその同義語との語幹を示す情報を抽出する語幹抽出手段と、を備え、検索手段は、語幹抽出手段によって抽出された行動名の語幹を示す情報と場所名とを組み合わせたクエリと、語幹抽出手段によって抽出された行動名の同義語の語幹を示す情報と場所名とを組み合わせたクエリとを用いて、データベースを検索することが好適である。
この構成によれば、あらかじめ場所・行動データベースに蓄積されている行動名の語そのもので検索するのではなく、語幹抽出手段が展開された行動名とその同義語の語幹を抽出し、検索手段が、語幹抽出手段によって抽出された語幹によりクエリを作成してデータベースを検索するので、行動名が持つ活用形や時制の違いに関わらずにデータベースを検索することが可能となる。
この場合、状況依存同義語決定手段は、当該共起度の差が一定値以内の行動名に係る状況表現語と行動名の同義語に係る状況表現語とが一致する度合を算出して状況依存同義語と決定することが好適である。
この構成によれば、状況依存同義語決定手段が当該共起度の差が一定値以内の行動名に係る状況表現語と行動名の同義語に係る状況表現語とが一致する度合を算出して状況依存同義語を決定するので、同義語決定に状況表現語の一致だけでなく、その共起度の数値も判定に利用することができ、共起度が一定値を超えて相違する状況表現語は同義語決定に用いないことができる。
また、本発明の別の態様によれば、文書を蓄積したデータベースを用いた同義語抽出方法であって、場所名を示す情報と当該場所名に関連した行動名を示す情報とを蓄積した場所・行動データベースから、場所名を示す情報と行動名を示す情報とを読み出すステップと、読み出した行動名を示す情報から、行動名の同義語を示す情報を蓄積した同義語辞書を用いて当該行動名の同義語を示す情報を抽出するステップと、行動名を示す情報と場所名を示す情報とを組み合わせたクエリと、抽出された行動名の同義語を示す情報と場所名を示す情報とを組み合わせたクエリとを用いてデータベースから文書を検索するステップと、検索された文書から、自立語を抽出するステップと、クエリを用いて検索された文書数に対する抽出された自立語が含まれる文書数の比である共起度を計算するステップと、計算された自立語の共起度によって自立語が状況表現語か否かを判定するステップと、状況表現語と判定された行動名に係る状況表現語と、状況表現語と判定された行動名の同義語に係る状況表現語とが一致する度合を算出し、あらかじめ設定された閾値以上の一致度を持つ同義語を状況依存同義語と決定するステップと、を含む同義語抽出方法が提供される。
この場合、場所名を示す情報と、行動名を示す情報と、決定された行動状況依存同義語を示す情報とをひとつのデータセットとしてテーブルに書き込むステップとを含むことが好適である。
この場合、行動名を示す情報と、抽出された当該行動名の同義語を示す情報とから、行動名と当該行動名の同義語との語幹を示す情報を蓄積した語幹辞書を参照して、行動名とその同義語の語幹を抽出するステップを含み、データベースを検索するステップでは、抽出された行動名の語幹を示す情報と場所名とを組み合わせたクエリと、抽出された行動名の同義語の語幹を示す情報と場所名とを組み合わせたクエリとを用いて、データベースを検索することが好適である。
この場合、状況依存同義語を決定するステップでは、当該共起度の差が一定値以内の行動名に係る状況表現語と行動名の同義語に係る状況表現語とが一致する度合を算出して状況依存同義語と決定することが好適である。
本発明の同義語抽出システムおよび同義語抽出方法によれば、特定の場所に関連した行動の同義語を決定することができる。
以下、本発明の実施の形態に係る行動状況関連語抽出システムについて添付図面を参照して説明する。
以下の、本発明の実施形態にかかる同義語抽出システム10の説明における場所・行動データベースとは場所とその場所における行動を記述したデータベースであり、本実施形態ではデータベースの一例として、構造化されたタスクオントロジを利用する。タスクオントロジにおける「ドメイン」と「タスク」はそれぞれ「場所」と「行動」を示しているものとする。「検索語」は検索に利用される個々の語を指し、「クエリ」はそれらを1つにまとめたものを呼び、クエリを用いてWebページを検索する。また、行動状況関連語とは、状況表現語、状況依存同義語をまとめて表現するものとする。
本実施形態にかかる同義語抽出システム10の構成について説明する。図1は、本実施形態にかかる同義語抽出システム10の構成図である。本実施形態の同義語抽出システムは、物理的にはWeb23(データベース)に接続されたサーバの装置として構成される。ここでWebとは、Web上に接続された各々のサーバを示すものとする。本実施形態にかかる同義語抽出システム10は、場所とその場所に関連する行動を記述した場所・行動テーブル(タスクオントロジ)20から場所名(以下、ドメイン)と行動名(以下、タスク)とを抽出する場所・行動読出部41(場所・行動読出手段)、同義語辞書21によって場所・行動読出部41によって読み出されたタスクを、タスク自身とその同義語とに展開する同義語展開部42(同義語展開手段)、語幹辞書22を参照してタスクの語幹のみを抽出する語幹抽出部43(語幹抽出手段)、同義語展開されたタスクとドメインとを組み合わせてクエリとしWeb23からWebページを検索するWeb検索部44(検索手段)、検索結果のWebページから状況を表現する状況表現語候補を抽出する状況表現語候補抽出部45(状況表現語候補抽出手段)、抽出された状況表現語候補の共起度を計算する共起度計算部46(共起度計算手段)、共起度計算部によって求められた共起度によって状況表現語として有効なものを判定する状況表現語判定部47(状況表現語判定手段)、状況表現語の類似性から、そのドメインにおけるタスクの状況依存同義語を決定する状況依存同義語決定部48(状況依存同義語決定手段)、状況依存同義語をタスクオントロジのドメインとタスクとに関連付けられる形式で同義語テーブル24に書き込む同義語書込部49を備えて構成される。以下、各構成要素について詳細に説明する。
図2は場所・行動データベース20のデータ構成を示す図である。場所・行動データベース20はタスクオントロジとして図2に示すように、データ番号、ドメイン、タスクを対応付けて保持している。場所・行動データベース20には、データの階層を示すため、親データ番号、子データ番号が合わせて蓄積されることがある。場所・行動読出部41は、データ番号の昇順にデータを読み出し、ドメインとタスクとを保持する。場所・行動読出部41は、例えば図2のような場所・行動データベース20の1−1のデータから、ドメインとして「遊園地」、タスクとして「遊ぶ」を読み出し保持する。
図3は同義語辞書21のデータ構成を示す図である。同義語辞書21には様々な語とその同義語とがデータとして含まれている。同義語展開部42は、場所・行動読出部41によって読み出されたタスクによって同義語辞書21の語の列を参照し、タスクに一致する語の同義語を読み出して、タスクをタスクとその同義語に展開する。例えばタスクが「遊ぶ」であれば、タスクは、「遊ぶ」、「プレー」、「遊戯する」、「遊興する」というようにタスクとその同義語に展開される。
図4は語幹を記載した語幹辞書22のデータ構成を示す図である。語幹辞書22は語、語の語幹、語の活用語尾を含んでいる。語幹抽出部43は、語幹辞書を参照し、適合する語があればその語幹のみを抽出し、与えられたタスクとその同義語とを語幹のみの語に更新する。例えば「遊ぶ」であれば、「遊」が、「食事する」であれば「食事」がそれぞれ語幹として抽出される。
図5はWeb検索部44の詳細な機能を示す図である。Web検索部44は、上記処理によって得られたドメインと、タスクとその同義語の語幹の1つとを組み合わせてクエリとして検索を行い、それらを含むWebページを取得する処理を行う。まず、場所名読出部44aがドメインを読み出す。次に行動名読出部44bが語幹のみとなったタスクとその同義語の中から1つを選択する。
包含関係チェック部44cは、読み出されたタスクとその同義語同士の文字列の包含関係の有無を、各文字列を比較することで判定する。例えば「遊ぶ」というタスクの例では、「遊」という文字列は同義語の「遊戯」や「遊興」という文字列の一部であるため包含関係にある。このとき「遊」という語でWebを検索した場合、「遊戯」や「遊興」という語を含むページも検索結果の中に含まれてしまう。そのため、クエリ生成部44dにおいて、そのような語を含むページを検索しないような処理を行う。
クエリ生成部44dは語幹のみとなったタスクとその同義語の中から1つを選択しドメインと組み合わせてクエリとする。上記の例のように図3や図4のような同義語展開と語幹抽出を行うと、「遊園地 遊」、「遊園地 遊戯」など4種類の組み合わせによるクエリが作成される。また、上述したようにクエリ生成部44dでは、包含関係チェック部において包含関係があった場合に包含している語を含むWebページを検索しないように、クエリに「.遊戯」や「.遊興」のような否定の検索語を加えることによって、「遊園地 遊 .遊戯 .遊興」のようなクエリを作成する。
クエリ生成部44dによって生成されたクエリを用いて、既存のロボット型検索エンジンを利用したWebページ検索処理部44eが、Web23よりクエリに適合するWebページを取得する処理を行う。
図1に戻り、状況表現語候補抽出部45は、Web検索部44によって検索された各文書に対して形態素解析を行い、その文書中に現れる自立語を、タスクが実行される状況を表現する状況表現語の候補である状況表現語候補として抽出する。ここで、形態素解析とは、辞書を元に自然文解析をし、品詞ごとの単語単位に切り出す技術を示す。また、ここで自立語とは、「朝」「昼」「夜」「友達」等のように単独で文節を作ることができる語を意味し、「は」、「が」、「に」、「を」のように常に前の単語に付いて用いられる付属語を含まない。本実施形態に係る形態素解析の処理には、一般的なワードプロセッサの日本語変換機能等で使用されている既存の技術を用いることができる。
共起度計算部46は、状況表現語候補抽出部45によって抽出された状況表現語候補が、クエリによる検索により取得されたWebページに対して、どれだけの比率でWebページに出現しているかを算出し、その比率を検索に利用されたクエリ(ドメインとタスク)との共起度として出力する。ここで、共起度とはクエリと状況表現語候補とされた自立語との関連の度合いを示すパラメータである。
状況表現語判定部47は、各々の状況表現語候補とその共起度から、事前に設定された閾値(ここでは一例として0.6とする)以上の状況表現語候補を状況表現語と判定し、閾値を下回る候補を状況表現語ではないと判定する。図6に、状況表現語候補と判定された状況表現語との一例を示す。図6の例では、共起度0.6以上の「昼」、「友達」、「アトラクション」が状況表現語として判定される。
図1に戻り、状況依存同義語決定部48は、場所・行動読出部41によって読み出されたタスクと、同義語展開された語との類似性を、それぞれの語を用いて得た状況表現語の類似性により判定する。状況依存同義語決定部48は、ここでは類似性を、共起度が近い状況表現語が一致する数がある閾値以上であったとき、クエリとなった同義語はそのドメインに関連した状況依存同義語であると判定する。状況依存同義語決定部48は、一致する状況表現語の数が少なければ、その同義語は一般的な同義語ではあるが、そのドメインにおいては、同義語としては有効でないと判定する。
図7に状況依存同義語決定における一致度とその判定結果の一例を示す。図7の例では、状況依存同義語決定部48は、タスクの同義語における状況表現語の共起度と、タスクにおける状況表現語の共起度との差が、タスクにおける状況表現語の共起度の20%以内である状況表現語を比較の対象としている。また、状況依存同義語決定部48は、一致するタスクの同義語における状況表現語の数が、タスクにおける状況表現語の60%以上であれば、状況依存同義語として判定する。
図8は同義語テーブル24のデータ構成を示す図である。同義語テーブル24は、どのドメインおよびタスクに関する状況依存同義語であるかを示すためのデータ番号、ドメイン、タスク、状況依存同義語によって構成されている。図1に示す同義語書込部49は、上記処理によって抽出されたドメイン、タスク、状況依存同義語を同義語テーブル24に書き込む。
続いて、本実施形態にかかる同義語抽出システムの処理の流れについて説明する。図9は、本実施形態にかかる同義語抽出システムの動作を示すフローチャートである。本実施形態にかかる同義語抽出システム10を動作させるにあたっては、まず、場所・行動読出部41は、タスクオントロジである場所・行動データベース20を参照し、読出しが行われていないデータが存在するかを調べる(s11)。データが残っていない場合は、全てのデータに対して処理を行ったということであるため、同義語抽出システム10は処理を終了する。場所・行動データベース20に処理を行っていないデータが残っている場合は、以下の処理を行う。
まず、場所・行動読出部41が、場所・行動データベース20からデータ番号、ドメイン、タスクを読み出す(s12)。次に、同義語展開部42は同義語辞書21を参照して、タスクをタスクとその同義語に展開する(s13)。次に、語幹抽出部43は語幹辞書22を参照してタスクとその同義語の各語の語幹のみを抽出する(s14)。Web検索語44は上記処理が行われたドメインとタスクを組み合わせてクエリとし(s15)、Webページ23を検索する(s16)。状況表現語候補抽出部45は、検索結果の各ページに対し形態素解析を行い、自立語を状況表現語候補として抽出する。共起度計算部46は、各状況表現語候補がどれだけの割合でクエリによる検索結果のWebページに現れているかを計算して共起度を算出する(s17)。状況表現語判定部47は、共起度とあらかじめ設定された閾値を比較し、共起度が閾値以上の状況表現語候補を状況表現語とする(s18)。以上のWeb検索部23から状況表現語判定部47の処理を、他のタスクの同義語とドメインを組み合わせた場合についても同様に行う。
次に、状況依存同義語決定部48は、タスクをクエリとして用いたときに得られた状況表現語と、タスクの同義語をクエリとして用いたときに得られた状況表現語を比較し、その語の一致度を求め、一致度が閾値以上であれば、その同義語を状況依存同義語とする(s19)。同義語書込部49は、ドメインと、タスクと、得られた状況依存同義語を1つのデータとして同義語テーブル24に書き込む(s20)。
続いて、本実施形態にかかる同義語抽出システム10におけるWeb検索部44の処理の流れについて説明する。図10はWeb検索部44の動作を示すフローチャートである。まず、場所名読出部44aは、場所・行動読出部41によって読み出され保持されているドメインを読み出す(s21)。次に、行動名読出部44bは、同義語展開と語幹抽出されたタスクの1つを読み出し(s22)、それらの語を組み合わせてクエリとする(s23)。
包含関係チェック部44cは、読み出されたタスクと他の同義語に文字列の包含関係がないかを文字列を比較し(s24)、包含関係にある同義語を否定の検索語とする(s25)。クエリ生成部44dはドメイン、タスク、否定の検索語の3つを組み合わせてクエリを生成する(s26)。以上の処理によって生成されたクエリを用いて、Webページ検索処理部44eは、既存のロボット型検索エンジンに問い合わせ、適合するWebページを検索する(s27)。
続いて、本実施形態にかかる行動状況関連語抽出システムの作用及び効果について説明する。ユーザに対して効率の良いタスク選択支援を行うためには、その場所(ドメイン)においてよく行われる行動(タスク)を、タスク候補として抽出する必要がある。本実施形態にかかる状況依存同義語決定部は、従来の同義語辞書に定義されている語の一般的な同義語の中から、あるタスクがそのドメインで行われる場合の同義語のみを選択することができる技術である。そのため、本実施形態による同義語抽出システムによって構築される同義語テーブルを利用することによって、ユーザのタスク検索の効率が向上する効果がある。
例えば、映画館ドメインに「移動する」と「見る」というタスクが存在し、スポーツクラブドメインでは「運動する」と「移動する」というタスクが存在したとする。一般的な同義語辞書では「移動する」の同義語として「動く」「移る」「行く」などがあり、「運動する」の同義語には「動く」、「スポーツする」、「体操する」などがある。これらの同義語に関して、本実施形態による同義語抽出システムを利用することで、スポーツクラブドメインにおいては「動く」は「移動する」の同義語ではないと判定され、「運動する」の同義語と判定される。つまり、ユーザがスポーツクラブドメインを指定し「動く」と検索したときには、「移動する」ではなく、「運動する」というタスクが表示される。一方、映画館ドメインに関して「動く」は「移動する」の同義語であると判定される。つまりユーザが映画館ドメインを指定し「動く」と検索したときには、「移動する」が表示される。以上のように、ユーザの入力に対して、そのドメインに関連したタスクを表示させられるため、タスク検索の効率が向上させることが可能となる。
また、上記実施形態にかかる行動状況関連語抽出システムでは、既存のロボット型検索エンジンを利用してWebページを検索していたが、検索されるソースをBlogのみとし、RSS(Rich Site Summary)を取得する検索システムを利用してもよい。このような構成にすることで、場所と行動とに関する情報のみを扱うことができるにようになる効果がある。
本発明の実施形態にかかる同義語抽出システムの構成を示す図である。 本発明の実施形態にかかる場所・行動データベースのデータ構成を示す図である。 本発明の実施形態にかかる同義語辞書のデータ構成を示す図である。 本発明の実施形態にかかる語幹辞書のデータ構成を示す図である。 本発明の実施形態にかかるWeb検索部の機能構成を示す図である。 本発明の実施形態にかかる状況表現語の抽出の例を示す図である。 本発明の実施形態にかかる状況依存同義語の決定の例を示す図である。 本発明の実施形態にかかる同義語テーブルのデータ構成を示す図である。 本発明の実施形態にかかる同義語抽出システムの動作を示すフローチャートである。 本発明の実施形態にかかる同義語抽出システムのWeb検索部の詳細な動作を示すフローチャートである。
符号の説明
10…同義語抽出システム、20…場所・行動データベース、21…同義語辞書、22…互換辞書、23…Web、24…同義語テーブル、41…場所・行動読出部、42…同義語展開部、43…語幹抽出部、44…Web検索部、44a…場所名読出部、44b…行動名読出部、44c…包含関係チェック部、44d…クエリ生成部、44e…Webページ検索処理部、45…状況表現語候補抽出部、46…共起度計算部、47…状況表現語判定部、48…状況依存同義語決定部、49…同義語書込部。

Claims (8)

  1. 文書を蓄積したデータベースに接続された同義語抽出システムであって、
    場所名を示す情報と当該場所名に関連した行動名を示す情報とを蓄積した場所・行動データベースと、
    場所名を示す情報と行動名を示す情報とを前記場所・行動データベースから読み出す場所・行動読出手段と、
    行動名の同義語を示す情報を蓄積した同義語辞書と、
    前記場所・行動読出手段によって読み出された行動名を示す情報から、前記同義語辞書を用いて当該行動名の同義語を示す情報を抽出する同義語展開手段と、
    前記行動名を示す情報と前記場所名を示す情報とを組み合わせたクエリと、前記同義語展開手段によって抽出された当該行動名の同義語を示す情報と前記場所名を示す情報とを組み合わせたクエリとを用いて、前記データベースを検索する検索手段と、
    前記検索手段によって検索された文書から、自立語を抽出する状況表現語候補抽出手段と、
    前記クエリを用いて前記検索手段により検索された文書数に対する前記状況表現語候補抽出手段によって抽出された自立語が含まれる文書数の比である共起度を計算する共起度計算手段と、
    前記共起度計算手段によって計算された共起度によって前記自立語が状況表現語か否かを判定する状況表現語判定手段と、
    前記状況表現語判定手段によって状況表現語と判定された行動名に係る状況表現語と、前記状況表現語判定手段によって状況表現語と判定された行動名の同義語に係る状況表現語とが一致する度合を算出し、あらかじめ設定された閾値以上の一致度を持つ同義語を状況依存同義語と決定する状況依存同義語決定手段と、
    を備えた同義語抽出システム。
  2. 前記場所名を示す情報と、前記行動名を示す情報と、前記状況依存同義語決定手段によって決定された行動状況依存同義語を示す情報とをひとつのデータセットとして蓄積する同義語テーブルを備えた請求項1に記載の同義語抽出システム。
  3. 行動名と当該行動名の同義語との語幹を示す情報を蓄積した語幹辞書と、
    前記行動名を示す情報と、前記同義語展開手段によって抽出された当該行動名の同義語を示す情報とから、前記語幹辞書を参照して、前記行動名とその同義語との語幹を示す情報を抽出する語幹抽出手段と、
    を備え、
    前記検索手段は、前記語幹抽出手段によって抽出された行動名の語幹を示す情報と前記場所名とを組み合わせたクエリと、前記語幹抽出手段によって抽出された行動名の同義語の語幹を示す情報と前記場所名とを組み合わせたクエリとを用いて、前記データベースを検索する、
    請求項1または2に記載の同義語抽出システム。
  4. 前記状況依存同義語決定手段は、当該共起度の差が一定値以内の前記行動名に係る状況表現語と前記行動名の同義語に係る状況表現語とが一致する度合を算出して前記状況依存同義語と決定する、
    請求項1ないし3のいずれか1項に記載の同義語抽出システム。
  5. 文書を蓄積したデータベースを用いた同義語抽出方法であって、
    場所名を示す情報と当該場所名に関連した行動名を示す情報とを蓄積した場所・行動データベースから、場所名を示す情報と行動名を示す情報とを読み出すステップと、
    前記読み出した行動名を示す情報から、行動名の同義語を示す情報を蓄積した同義語辞書を用いて当該行動名の同義語を示す情報を抽出するステップと、
    前記行動名を示す情報と前記場所名を示す情報とを組み合わせたクエリと、前記抽出された行動名の同義語を示す情報と前記場所名を示す情報とを組み合わせたクエリとを用いて前記データベースから文書を検索するステップと、
    前記検索された文書から、自立語を抽出するステップと、
    前記クエリを用いて検索された文書数に対する前記抽出された自立語が含まれる文書数の比である共起度を計算するステップと、
    前記計算された自立語の共起度によって前記自立語が状況表現語か否かを判定するステップと、
    前記状況表現語と判定された行動名に係る状況表現語と、前記状況表現語と判定された行動名の同義語に係る状況表現語とが一致する度合を算出し、あらかじめ設定された閾値以上の一致度を持つ同義語を状況依存同義語と決定するステップと、
    を含む同義語抽出方法。
  6. 前記場所名を示す情報と、前記行動名を示す情報と、前記決定された行動状況依存同義語を示す情報とをひとつのデータセットとしてテーブルに書き込むステップと、
    を含む請求項5に記載の同義語抽出方法。
  7. 前記行動名を示す情報と、前記抽出された当該行動名の同義語を示す情報とから、行動名と当該行動名の同義語との語幹を示す情報を蓄積した語幹辞書を参照して、前記行動名とその同義語の語幹を抽出するステップを含み、
    前記データベースを検索するステップでは、前記抽出された行動名の語幹を示す情報と前記場所名とを組み合わせたクエリと、前記抽出された行動名の同義語の語幹を示す情報と前記場所名とを組み合わせたクエリとを用いて、前記データベースを検索する、
    請求項5または6に記載の同義語抽出方法。
  8. 前記状況依存同義語を決定するステップでは、当該共起度の差が一定値以内の前記行動名に係る状況表現語と前記行動名の同義語に係る状況表現語とが一致する度合を算出して前記状況依存同義語と決定する、
    請求項5ないし7のいずれか1項に記載の同義語抽出方法。
JP2005145676A 2005-05-18 2005-05-18 同義語抽出システムおよび同義語抽出方法 Pending JP2006323594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005145676A JP2006323594A (ja) 2005-05-18 2005-05-18 同義語抽出システムおよび同義語抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005145676A JP2006323594A (ja) 2005-05-18 2005-05-18 同義語抽出システムおよび同義語抽出方法

Publications (1)

Publication Number Publication Date
JP2006323594A true JP2006323594A (ja) 2006-11-30

Family

ID=37543231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005145676A Pending JP2006323594A (ja) 2005-05-18 2005-05-18 同義語抽出システムおよび同義語抽出方法

Country Status (1)

Country Link
JP (1) JP2006323594A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140355A (ja) * 2008-12-12 2010-06-24 Ntt Docomo Inc 情報検索システム及び情報検索方法
JP2012146079A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、及び情報検索プログラム
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
JP2017004260A (ja) * 2015-06-10 2017-01-05 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140355A (ja) * 2008-12-12 2010-06-24 Ntt Docomo Inc 情報検索システム及び情報検索方法
JP2012146079A (ja) * 2011-01-11 2012-08-02 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、及び情報検索プログラム
CN104765858A (zh) * 2015-04-21 2015-07-08 北京航天长峰科技工业集团有限公司上海分公司 公安用同义词库的构建方法及获得的公安用同义词库
JP2017004260A (ja) * 2015-06-10 2017-01-05 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JP3918531B2 (ja) 類似文書検索方法およびシステム
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
Thakkar et al. Graph-based algorithms for text summarization
KR101252397B1 (ko) 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
JP5078173B2 (ja) 多義性解消方法とそのシステム
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
CN105045852A (zh) 一种教学资源的全文搜索引擎***
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
JP2016164708A (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP2006323594A (ja) 同義語抽出システムおよび同義語抽出方法
Kim et al. Harvesting large corpora for generating place graphs
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
JP2010231526A (ja) 辞書構築装置、辞書構築方法および辞書構築用プログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2008152641A (ja) 類似例文検索装置
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
Subhashini et al. A framework for efficient information retrieval using NLP techniques
CN112732885A (zh) 用于问答***的答案扩展方法、装置及电子设备
JP5094835B2 (ja) 意味属性推定装置、方法及びプログラム
Demir Context tailoring for text normalization
JP2007199876A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム