JP6448128B2 - 主題語抽出装置、及びプログラム - Google Patents

主題語抽出装置、及びプログラム Download PDF

Info

Publication number
JP6448128B2
JP6448128B2 JP2014263083A JP2014263083A JP6448128B2 JP 6448128 B2 JP6448128 B2 JP 6448128B2 JP 2014263083 A JP2014263083 A JP 2014263083A JP 2014263083 A JP2014263083 A JP 2014263083A JP 6448128 B2 JP6448128 B2 JP 6448128B2
Authority
JP
Japan
Prior art keywords
word
words
importance
indirect
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014263083A
Other languages
English (en)
Other versions
JP2016122398A (ja
Inventor
菊佳 望月
菊佳 望月
山田 一郎
一郎 山田
太郎 宮▲崎▼
太郎 宮▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014263083A priority Critical patent/JP6448128B2/ja
Publication of JP2016122398A publication Critical patent/JP2016122398A/ja
Application granted granted Critical
Publication of JP6448128B2 publication Critical patent/JP6448128B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、主題語抽出装置、及びプログラムに関する。
文書に含まれる単語の中から主題語となる重要な単語を抽出する技術の一つに、tf−idfがある(例えば、非特許文献1参照)。tf−idfは、文書中に出願する単語の頻度と、その単語が出現する文書頻度とを用いて単語の重要度を計算する。しかし、tf−idfでは文脈を考慮していないため、主題語を正しく抽出できない場合がある。そこで、文書中の単語の重要度を、tf−idfだけではなく、文書中にある単語の関係性を考慮した値も加味して計算し、主題語を抽出する技術がある(例えば、特許文献1参照)。
特開2013−242791号公報
「tf−idf」、[online]、ウィキペディア、[平成26年10月22日検索]、インターネット〈URL:http://ja.wikipedia.org/wiki/Tf-idf〉
特許文献1の技術では、文書中に出現する単語間に直接なんらかの関係性がないと重要度は高くならない。例えば、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」という文書があるとする。この場合、「肩こり」と「生姜」、「肩こり」と「温泉」、「肩こり」と「ヨガ」のような単語間の関係パスが辞書から得られれば、「肩こり」の重要度は増す。しかし、既存の辞書は、上位下位関係の単語を示すものや、類似した単語を示すものであり、全ての単語間の直接関係を記述した辞書は実際には存在しがたい。そのため、特許文献1の技術を実現することは容易ではない。
本発明は、このような事情を考慮してなされたもので、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出する主題語抽出装置、及びプログラムを提供する。
本発明の一態様は、文書データから単語を抽出する抽出部と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、を備えることを特徴とする主題語抽出装置である。
この発明によれば、主題語抽出装置は、文書データから抽出した単語と関係する他の単語である関係語と、各関係語それぞれと関係する他の単語である間接関係語を、関係語辞書データから取得する。主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出する。主題語抽出装置は、文書データから抽出した単語の中から重要度に基づいて主題を表す単語を選択する。
これにより、主題語抽出装置は、単語間の関係を全て記述した辞書がなくとも、例えば既存の関係語辞書を利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
本発明の一態様は、上述する主題語抽出装置であって、前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データに含まれる所定の品詞の単語の中から、主題を表す単語を選択する。
これにより、主題語抽出装置は、文書データから、名詞など、主題としてわかりやすい品詞の単語を主題語として抽出することができる。
本発明の一態様は、上述する主題語抽出装置であって、前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とのそれぞれに重み付けした結果を加算することにより算出する。
これにより、主題語抽出装置は、文書データに関係語が出現する数と間接関係語が出現する数とのうち、直接の関係語が出現する数により大きな重みを置き、直接の関係語が文書データに多く出現する単語ほど重要度が高くなり易いようにするなど、重要度を適切に算出することが可能となる。
本発明の一態様は、上述する主題語抽出装置であって、前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、ことを特徴とする。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の間接関係語と関係がある単語をさらに用いて、単語の重要度を算出することができる。
これにより、主題語抽出装置は、間に複数の単語をはさんでたどり着く関係の単語が文書データに出現する数をさらに利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
本発明の一態様は、コンピュータを、文書データから単語を抽出する抽出手段と、関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、を具備する主題語抽出装置として機能させるためのプログラムである。
本発明によれば、単語間の関係を全て記述した辞書がなくとも文書から主題となる単語を抽出することができる。
本発明の一実施形態による主題語抽出装置の動作概要を説明するための図である。 同実施形態による主題語抽出装置の構成を示すブロック図である。 同実施形態による主題語抽出装置の主題語抽出処理を示すフローチャートである。 同実施形態による単語リストの例を示すフローチャートである。 同実施形態による主題語抽出装置の単語リスト生成処理を示すフローチャートである。 同実施形態による主題語抽出装置の第一重要度要素算出処理を示すフローチャートである。 同実施形態による主題語抽出装置の第二重要度要素算出処理を示すフローチャートである。 同実施形態による文書データの例を示す図である。 同実施形態による主題語抽出装置が図8の文書データから抽出した単語を示す図である。 同実施形態による関係語辞書データの例を示す図である。 同実施形態による単語リストに関係語及び間接関係語を追加した図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による主題語抽出装置の動作概要を示す図である。本実施形態による主題語抽出装置は、関係語辞書データを利用して、文書データに含まれる文から主題となる単語を抽出する。
関係語辞書データは、関係がある複数の単語を関連付けて記述したデータである。このような関係語辞書データには、既存の類語辞典や概念辞書のデータを用いることができる。例えば、類語辞典には、角川類語新辞典、分類語彙表などを用いることができる。また、例えば、概念辞書のデータには、「通信研究機構(NICT)、”ALAGIN 言語資源・音声資源サイト”、高度言語情報融合フォーラム、[online]、インターネット〈URL:https://alaginrc.nict.go.jp/opensource.html>」を用いることができる。
関係語辞書データに、「肩こり」−「温熱」、「肩こり」−「体操」、「温熱」−「生姜」、「温熱」−「温泉」、「体操」−「ヨガ」のような単語同士の関係が登録されているとする。なお、「単語T1」−「単語T2」は、単語T1と単語T2との間に直接の関係があることを示す。単語T2は単語T1の関係語であり、単語T1は単語T2の関係語である。
文書データが、「肩こりには生姜がきく・・・温泉に入るのもよい。・・・ヨガもよいであろう。」というテキストを含む場合、この文書データからは、「肩こり」、「生姜」、「温泉」、「ヨガ」などの単語が抽出される。関係語辞書データには、抽出されたこれらの単語間の直接の関係は登録されていない。しかし、単語間に直接の関係(パス)が関係語辞書データに登録されていない場合でも、他の単語を挟んで単語間のパスが得られる場合がある。例えば、「肩こり」−「温熱」−「生姜」、「肩こり」−「温熱」−「温泉」、「肩こり」−「体操」−「ヨガ」のように、共通する関係語を間に挟むことにより、「肩こり」から「生姜」、「温泉」、「ヨガ」にたどり着く(パスを張る)ことができる。このように、単語T1と単語T3とが共通の関係語を有しており、単語T1から共通の関係語を間に挟んで単語T3へたどり着くことができる場合、単語T3を単語T1の間接関係語とする。
本実施形態の主題語抽出装置は、文書データに含まれる文から抽出された単語に、その単語の関係語が文書データに出現する数と、その単語から共通の関係語を挟むことによりたどり着くことができる間接関係語が文書データに出現する数とに応じて重要度を与える。本実施形態の主題語抽出装置は、抽出された単語の中から重要度に基づいて主題語を選択する。
図2は、本発明の一実施形態による主題語抽出装置1の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。主題語抽出装置1は、コンピュータ装置により実現され、同図に示すように、入力部11と、抽出部12と、関係語取得部13と、間接関係語取得部14と、重要度算出部15と、選択部16とを備えて構成される。
主題語抽出装置1は、関係語辞書記憶装置3と接続される。関係語辞書記憶装置3は、関係語辞書データを記憶する。例えば、関係語辞書データは、「単語T1 [関係名] 単語T2」の形式により記述される複数の項目データを含む。「単語T1 [関係名] 単語T2」は、単語T1と単語T2が関係名で表される関係を持つことを表す。例えば、項目データは、「果物 [上位下位] りんご」、「台風 [原因結果] 大雨」などを示す。関係語辞書データには、同一の単語について、それぞれ異なる他の単語(関係語)との関係を示す項目データが複数含まれ得る。
入力部11は、文書データの入力を受ける。文書データは、1以上の文を示すテキストデータを含む。文書データには、例えば、ウェブページ、電子書籍、電子番組表(EPG:Electronic Program Guide)の番組概要文などを用いることができる。抽出部12は、入力部11により入力された文書データに含まれるテキストデータから単語を抽出する。関係語取得部13は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語のそれぞれと関係がある他の単語を抽出部12が抽出した単語の関係語として取得する。間接関係語取得部14は、関係語辞書記憶装置3が記憶している関係語辞書データから、抽出部12が抽出した単語の関係語と関係がある他の単語を間接関係語として取得する。重要度算出部15は、抽出部12が抽出した各単語について、単語の重要性を定量的に表す重要度を算出する。単語の重要度は、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出される。選択部16は、抽出部12が抽出した単語の中から、重要度算出部15が算出した重要度に基づいて主題となる単語である主題語を選択し、選択した主題語を出力する。
図3は、主題語抽出装置1の主題語抽出処理を示すフローチャートである。
まず主題語抽出装置1の入力部11は、文書データの入力を受ける(ステップS110)。抽出部12は、ステップS110において入力された文書データの中から、文書データを1つ選択する(ステップS115)。抽出部12は、ステップS115において選択した文書データに含まれるテキストデータから所定の品詞の単語を抽出する。本実施形態では、所定の品詞を名詞とする。抽出部12は、抽出した単語の一覧を設定したデータである単語リストを生成する(ステップS120)。単語リストに設定されたi番目の単語を、単語Aiと記載する(iは1以上の整数)。また、以下では、単語A1、A2、…を総称して単語Aと記載する。
関係語取得部13は、単語リストに設定されている単語Aiのそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得する。取得した単語Aiのn個(nは1以上の整数)の関係語をそれぞれ、関係語Bi1、Bi2、…、Binとする。関係語Bij(jは1以上n以下の整数)は、単語Aiのj番目の関係語である。単語Aiの関係語Bi1、Bi2、…、Binを総称して関係語Biと記載する。関係語取得部13は、単語Aiの関係語Biが文書データに出現する数を第一重要度要素V1−iとして算出し、単語リストに設定する(ステップS125)。以下では、関係語B1、B2、…を総称して関係語Bと記載し、第一重要度要素V1−1、V1−2、…を総称して第一重要度要素V1と記載する。
間接関係語取得部14は、単語Aiのn個の関係語Biそれぞれの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語とする。関係語Bijの関係語として得られたkij個(kijは1以上の整数)の間接関係語を、間接関係語Cij1、Cij2、…、Cijkijとする。以下では、単語Aiの間接関係語Cij1、Cij2、…、Cijkijを総称して間接関係語Cijと記載し、単語Aiの間接関係語Ci1、Ci2、…、Cinを総称して、間接関係語Ciと記載する。なお、間接関係語取得部14は、関係語Biの関係語のうち、単語Aiと一致する関係語は間接関係語Ciからは除外する。間接関係語取得部14は、単語Aiの間接関係語Ciが文書データに出現する数を第二重要度要素V2−iとして算出し、単語リストに設定する(ステップS130)。以下では、単語A1、単語A2、…それぞれの間接関係語C1、C2、…を総称して間接関係語Cと記載し、単語A1、A2、…それぞれの第二重要度要素V2−1、V2−2、…を総称して第二重要度要素V2と記載する。
重要度算出部15は、単語リストに設定されている単語Aiの第一重要度要素V1−i及び第二重要度要素V2−iを用いて、以下の式(1)により単語Aiの重要度V−iを算出する。
重要度V−i=(1−u)×[第一重要度要素V1−i]+u×[第二重要度要素V2−i] (0≦u≦0.5) …(1)
重要度算出部15は、各単語Aiについて算出した重要度V−iを単語リストに設定する(ステップS135)。以下では、重要度V−iを総称して重要度Vと記載する。
選択部16は、単語リストから重要度Vが所定条件を満たす単語Aを主題語として選択する(ステップS140)。所定条件は、例えば、重要度が最も高いという条件でもよく、重要度が高いものから所定数という条件でもよく、最も高い重要度の所定割合以上の値の重要度という条件でもよい。選択部16は、ステップS140において選択した主題語を出力する(ステップS145)。
抽出部12は、ステップS110において入力された文書データの中に、未選択の文書データがあるか否かを判断する(ステップS150)。抽出部12は、未選択の文書データがあると判断した場合(ステップS150:YES)、ステップS115からの処理を繰り返す。
なお、抽出部12は、ステップS120において文書データに含まれるテキストデータから所定の品詞の単語を抽出できなかった場合、ステップS125〜ステップS145までの処理を行わず、ステップS150の処理を実行する。
そして、抽出部12は、ステップS110において入力された文書データを全て選択したと判断した場合(ステップS150:NO)、処理を終了する。
図4は、単語リストの例を示す図である。同図に示すように、単語リストは、文書データから抽出した名詞である単語Ai(i=1、2、…)と、単語Aiの第一重要度要素V1−i、第二重要度要素V2−i、及び、重要度V−iとを対応付けたデータである。
図5は、主題語抽出装置1の単語リスト生成処理を示すフローチャートである。同図に示す単語リスト生成処理は、図3のステップS120の詳細な処理である。
抽出部12は、選択した文書データに含まれるテキストデータから1文を選択する(ステップS210)。抽出部12は、選択した文を形態素解析する(ステップS215)。形態素解析には、既存の技術を用いることができる。例えば、既存の形態素解析の技術として、「”Mecab”、[online]、インターネット〈URL:https://code.***.com/p/mecab/>」を用いることができる。
抽出部12は、形態素解析した結果に基づいて、選択した文から名詞の単語を抽出する(ステップS220)。抽出部12は、抽出した単語のうち単語リストに未登録の単語を単語リストに単語Aとして追加する(ステップS225)。なお、抽出部12は、単語Aが文書データに出現した延べ回数を示す出現頻度をさらに単語リストに設定する場合がある。出現頻度を設定する場合とは、第一重要度要素V1に単語Aの関係語Bが文書データに出現する延べ回数を使用する場合や、第二重要度要素V2に単語Aの間接関係語Cが文書データに出現する延べ回数を使用する場合である。この場合、抽出部12は、ステップS220において抽出した単語が単語リストに未登録であるときには、抽出した単語と、選択された文からその単語が抽出された数を示す出現頻度とを単語リストに設定する。また、抽出した単語が単語リストに登録済みのときには、抽出部12は、単語リストに設定されているその単語の出現頻度を、選択された文からその単語が抽出された数を加算した値に更新する。
抽出部12は、ステップS210において選択した文が、文書データに含まれるテキストデータの最後の文ではないと判断した場合(ステップS230:NO)、ステップS210からの処理を繰り返す。
そして、抽出部12は、ステップS210においてした文が、文書データに含まれるテキストデータの最後の文であると判断した場合(ステップS230:YES)、処理を終了する。
図6は、主題語抽出装置1の第一重要度要素算出処理を示すフローチャートである。同図に示す第一重要度要素算出処理は、図3のステップS125の詳細な処理である。
関係語取得部13は、変数iに初期値1を設定する(ステップS310)。関係語取得部13は、単語リストに設定されているi番目の単語Aiを選択する(ステップS315)。関係語取得部13は、単語Aiの関係語Bi1、Bi2、…、Binを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS320)。関係語取得部13は、取得した関係語Bi1、Bi2、…、Binのうち単語リストに単語Aとして出現する関係語Biの数を計数し、第一重要度要素V1−iとする(ステップS325)。
なお、関係語取得部13は、関係語Bi1、Bi2、…、Binのそれぞれが文書データに出現する延べ回数を合計し、第一重要度要素V1−iとしてもよい。延べ回数を合計して第一重要度要素V1−iとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、関係語取得部13は、関係語Bi1、Bi2、…、Binのうち、単語リストに単語Aとして出現する関係語Biについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない関係語Biについては出現頻度を「0」とする。関係語取得部13は、関係語Bi1、Bi2、…、Binそれぞれの出現頻度を合計し、単語Aiの第一重要度要素V1−iとする。
また、ステップS320において関係語Biを取得できなかった場合、関係語取得部13は、第一重要度要素V1−iを「0」とする。
関係語取得部13は、ステップS325において得た第一重要度要素V1−iを単語Aiと対応付けて単語リストに設定する(ステップS330)。
関係語取得部13は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS335:NO)、変数iに1を加算してステップS315からの処理を繰り返す(ステップS340)。
そして、関係語取得部13は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS335:YES)、処理を終了する。
図7は、主題語抽出装置1の第二重要度要素算出処理を示すフローチャートである。同図に示す第二重要度要素算出処理は、図3のステップS130の詳細な処理である。
間接関係語取得部14は、変数iに初期値1を設定する(ステップS410)。間接関係語取得部14は、単語リストに設定されているi番目の単語Aiを選択する(ステップS415)。間接関係語取得部14は、単語Aiのそれぞれの関係語Bi1、Bi2、…、Binを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS420)。なお、間接関係語取得部14は、図6のステップS320において関係語取得部13が取得した関係語Bi1、Bi2、…、Binを取得してもよい。
間接関係語取得部14は、変数jに初期値1を設定する(ステップS425)。間接関係語取得部14は、関係語Bijの関係語を関係語辞書記憶装置3が記憶している関係語辞書データから取得し、単語Aiの間接関係語Cij1、Cij2、…、Cijkijとする(ステップS430)。
間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijの数を、関係語Bijに関する第二重要度部分要素V2−i−jとする(ステップS435)。
なお、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのそれぞれが文書データに出現する延べ回数を合計し、第二重要度部分要素V2−i−jとしてもよい。延べ回数を合計して第二重要度部分要素V2−i−jとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない間接関係語Cijについては出現頻度を「0」とする。間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijそれぞれの出現頻度を合計し、単語Aiの第二重要度部分要素V2−i−jとする。
また、ステップS430において間接関係語Cijを取得できなかった場合、間接関係語取得部14は、単語Aiの第二重要度部分要素V2−i−jを「0」とする。
間接関係語取得部14は、変数jがn未満であり、ステップS420において取得した関係語Bi1、Bi2、…、Binの全てをまだ選択していないと判断した場合(ステップS440:NO)、変数jに1を加算してステップS430からの処理を繰り返す(ステップS445)。
そして、間接関係語取得部14は、変数jがnに達し、ステップS420において取得した関係語Bi1、Bi2、…、Binの全てを選択したと判断した場合(ステップS440:NO)、ステップS450の処理を実行する。つまり、間接関係語取得部14は、単語Aiの関係語Bi1〜BinのそれぞれについてステップS435において得た第二重要度部分要素V2−i−1〜V2−i−nを合計し、単語Aiの第二重要度要素V2−iを算出する(ステップS450)。間接関係語取得部14は、ステップS450において得た第二重要度要素V2−iを単語Aiと対応付けて単語リストに設定する(ステップS455)。
間接関係語取得部14は、単語リストに設定されている単語Aを全て選択していないと判断した場合(ステップS460:NO)、変数iに1を加算してステップS415からの処理を繰り返す(ステップS465)。
なお、ステップS420において関係語Biを取得できなかった場合、間接関係語取得部14は、第二重要度要素V2−iを「0」とし、ステップS455からの処理を行う。
そして、間接関係語取得部14は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS460:YES)、処理を終了する。
図7の処理の後、図3のステップS135からの処理が実行される。つまり、重要度算出部15は、単語リストに設定されている各単語Aの重要度Vを、第一重要度要素V1及び第二重要度要素V2を用いて算出し、単語リストに設定する(ステップS135)。選択部16は、単語リストに設定されている単語Aの中から重要度Vに基づいて主題語を選択し(ステップS140)、出力する(ステップS145)。
続いて、主題語抽出装置1の主題語抽出処理を、具体例を用いて説明する。
図8は、文書データの例を示す図である。主題語抽出装置1の抽出部12は、ステップS110において入力部11が受けた文書データの中から、図8に示す文書データDを選択する。抽出部12は、文書データDに含まれる文章から名詞の単語を抽出する。
図9は、抽出部12が文書データDから抽出した単語を示す図である。同図には、抽出した各単語が文書データDに出現する頻度についても示している。抽出部12は、図9に示す名詞の単語「肩こり」、「解消」、「方法」、「体」、…を、単語Aとして設定した単語リストを生成する。
図10は、関係語辞書記憶装置3が記憶している関係語辞書データの例を示す図である。関係語取得部13は、図10に示す関係語辞書データを参照して各単語Aの関係語Bを取得し、単語Aの関係語Bが単語リストに出現する数(または単語Aの関係語Bが文書データに出現する延べ回数)を第一重要度要素V1として単語リストに設定する。また、間接関係語取得部14は、関係語辞書データを参照して各単語Aの間接関係語Cを取得し、間接関係語Cが単語リストに出現する数(または単語Aの間接関係語Cが文書データに出現する延べ回数)を第二重要度要素V2として単語リストに設定する。
図11は、単語リストに単語Aの関係語B及び間接関係語Cを追加した図である。
同図に示すように、単語A「肩こり」については、図10に示す関係語辞書データから関係語B「体操」、「温熱」、…が得られる。関係語Bの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の関係語B「体操」、「温熱」、…のうち、単語リストに出現するのは「体操」のみであるため、第一重要度要素V1は「1」となる。
また、単語A「肩こり」の関係語B「体操」については、関係語辞書データから関係語「肩こり」、…が得られる。また、単語Aの関係語B「温熱」については、関係語辞書データから関係語「肩こり」、「温泉」、「生姜」、…が得られる。関係語Bについて得られた関係語のうち、単語A「肩こり」と一致する関係語は間接関係語Cから除外される。よって、単語A「肩こり」の間接関係語Cとして、「温泉」、「生姜」、…が得られる。間接関係語Cの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の間接関係語C「温泉」、「生姜」、…のうち、単語リストに出現するのは「温泉」、「生姜」の2つであるため、第二重要度要素V2は「2」となる。
単語A「肩こり」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
同様に、単語A「温泉」については、関係語B「リラックス」、「温熱」、…が得られ、単語リストには「リラックス」のみが出現するため、第一重要度要素V1は「1」となる。また、単語A「温泉」については、間接関係語C「生姜」、…が得られ、単語リストには「生姜」のみが出現するため、第二重要度要素V2は「1」となる。単語A「温泉」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。
また、単語A「リラックス」の関係語Bのうち「温泉」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「リラックス」の間接関係語Cはいずれも単語リストに出現しないため、第二重要度要素V2は「0」となる。単語A「リラックス」の重要度Vは、式(1)に基づいて、0.5(=0.5×1+0.5×0)と算出される。
また、単語A「生姜」の関係語Bのうち「料理」のみが単語リストに出現するため、第一重要度要素V1は「1」となる。また、単語A「生姜」の間接関係語Cのうち「温泉」のみが単語リストに出現するため、第二重要度要素V2は「1」となる。単語A「生姜」の重要度Vは、式(1)に基づいて、1.0(=0.5×1+0.5×1)と算出される。
なお、関係語B、間接関係語Cが文書データに出現した延べ回数をそれぞれ第一重要度要素V1、第二重要度要素V2とする場合、図9に示す各単語Aの出現頻度を単語リストに設定しておく。
そして、単語A「肩こり」の場合、関係語Bのうち「体操」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「肩こり」の間接関係語Cのうち「温泉」の出現頻度が「2」、「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「4」となる。よって、単語A「肩こり」の重要度Vは、式(1)に基づいて、2.5(=0.5×1+0.5×4)と算出される。
同様に、単語A「温泉」の場合、関係語Bのうち「リラックス」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「温泉」の間接関係語Cのうち「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「2」となる。よって、単語A「温泉」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
上記のように各単語Aの重要度を算出した結果、単語A「肩こり」の重要度Vが最も高くなる。選択部16は、最も高い重要度Vの単語A「肩こり」を主題語として選択する。
なお、式(1)における係数uの値は、学習用の文書データについて係数uを変化させながら主題語抽出を行い、人手により抽出した主題語と適合する確率が高いときの係数uの値に基づいて決定する。
文書データDの主題語は「肩こり」であるが、文書データ群が文書データDのみからなるという条件でtf−idfを計算した場合、図9に示すように出現頻度が最も高い単語「有効」が主題語として選択されてしまう。
また、関係語辞書データを参照して、文書内の単語同士に直接関係が得られた場合に重みを付ける従来技術もあるが、直接関係のある単語対が全て含まれる関係語辞書データは現実的には存在しがたい。関係語辞書データに「生姜 [食材] 料理]、「温泉 [有効] リラックス」、「肩こり [対処法] 体操」のような2単語間の関係しか登録されていない場合、「肩こり」の重みはさほど大きくならないことが考えられる。
本実施形態の主題語抽出装置1は、文書データから抽出した単語の重要度を、直接関係する単語が文書データに出現する数に加え、間に他の単語をはさんで間接的に関係する単語が文書データに出現する数を用いて重要度を算出する。このように算出した重要度を用いることにより、主題語抽出装置1は、文書データに出現する単語の中から、主題語として適切な単語を抽出することができる。
なお、選択部16は、tf−idfなどの頻度情報を組み合わせて、単語Aの中から主題を抽出してもよい。例えば、選択部16は、tf−idf値が所定よりも高い単語Aのうち、重要度Vが所定条件を満たす単語Aを主題語として抽出する。tf−idf値が所定よりも高い単語Aとは、tf−idf値が所定値以上の単語A、tf−idf値が高いものから所定数の単語A、などとすることができる。あるいは、選択部16は、重要度Vが所定条件を満たす単語Aのうち、tf−idf値が最も高いものから所定数の単語Aを主題語として抽出してもよい。
また、関係語取得部13は、単語Aの第一重要度要素V1を関係語Bが単語リストに出現する数とする場合、所定の分野に属する関係語Bについては、出現数に1より大きな値の係数を乗算してもよい。
例えば、単語Aiの関係語Bi1、Bi2、…、Binであり、単語リストには、関係語Bi1、Bi2、Bi3が出現し、関係語Bi4〜Binは出現しないとする。関係語Bi1及びBi2が所定の分野に属する単語である場合、関係語Bi1及びBi2についてはそれぞれ1×a(a>1)回と計数する。よって、単語Aiの第一重要度要素V1−iは、2×a+1となる。
同様に、間接関係語取得部14は、単語Aの第二重要度要素V2を間接関係語Cが単語リストに出現する数とする場合、所定の分野に属する間接関係語Cについては出現数に1より大きな値の係数を乗算してもよい。
また、関係語取得部13は、単語Aの第一重要度要素V1を文書データにおける各関係語Bの出現頻度の合計とする場合、所定の分野に属する関係語Bについては、出現頻度に1より大きな値の係数を乗算してもよい。例えば、単語Aiの関係語Bi1、Bi2、…、Binであり、文書データには、関係語Bi1が2回、関係語Bi2が3回出現し、関係語Bi3〜Binは出現しないとする。関係語Bi1が所定の分野に属する単語である場合、関係語Bi1の出現頻度「2」には係数a(a>1)を乗算する。よって、単語Aiの第一重要度要素V1−iは、関係語Bi1の出現頻度「2」×係数a+関係語Bi2の出現頻度「3」となる。
同様に、関係語取得部13は、単語Aの第二重要度要素V2を文書データにおける各間接関係語Cの出現頻度の合計とする場合、所定の分野に属する間接関係語Cについては、出現頻度に1より大きな値の係数を乗算してもよい。
また、間接関係語取得部14は、単語Aの間接関係語Cに関係する関係語を関係語辞書データから読み出して、単語Aの間接関係語とする処理をm回(mは1以上の整数)繰り返してもよい。間接関係語Cに関係する関係語を間接関係語E1、間接関係語E1に関係する関係語を間接関係語E2、…とする。重要度算出部15は、単語Aの関係語Bが文書データに出現する数V1、単語Aの間接関係語Cが文書データに出現する数V2、単語Aの間接関係語E1が文書データに出現する数V3、単語Aの間接関係語E2が文書データに出現する数V4、…のそれぞれに所定の重み付け係数を乗算した後に加算して、単語Aの重要度を算出する。なお、V1の重み付け係数>V2の重み付け係数>V3の重み付け係数>V4の重み付け係数、…とする。
上述した実施形態によれば、主題語抽出装置1は、文書データに出現する単語同士の関係を用いることにより、話題性を考慮した単語を文書データから抽出することができる。この単語同士の関係には、直接の関係がある単語だけではなく、間接的に関係する単語の関係までが用いられる。従って、文書データに出現する単語同士が、関係語辞書データに直接関係する単語として登録されていなくても、文書データ中の他の単語と関係を多く有する単語に高い重要度を与え、主題語にふさわしい単語を抽出することができる。このように主題語抽出装置1が文書データから抽出した主題語は、文書から情報を抽出したり、文書を要約したり、文書データに関連するコンテンツを推薦したりするために利用可能である。
上述した主題語抽出装置1は、内部にコンピュータシステムを有している。そして、主題語抽出装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1 主題語抽出装置
11 入力部
12 抽出部
13 関係語取得部
14 間接関係語取得部
15 重要度算出部
16 選択部
3 関係語辞書記憶装置

Claims (5)

  1. 文書データから単語を抽出する抽出部と、
    関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、
    前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、
    前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、
    前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、
    を備えることを特徴とする主題語抽出装置。
  2. 前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、
    ことを特徴とする請求項1に記載の主題語抽出装置。
  3. 前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、
    ことを特徴とする請求項1または請求項2のいずれか1項に記載の主題語抽出装置。
  4. 前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の主題語抽出装置。
  5. コンピュータを、
    文書データから単語を抽出する抽出手段と、
    関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、
    前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、
    前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、
    前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、
    を具備する主題語抽出装置として機能させるためのプログラム。
JP2014263083A 2014-12-25 2014-12-25 主題語抽出装置、及びプログラム Active JP6448128B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014263083A JP6448128B2 (ja) 2014-12-25 2014-12-25 主題語抽出装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014263083A JP6448128B2 (ja) 2014-12-25 2014-12-25 主題語抽出装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016122398A JP2016122398A (ja) 2016-07-07
JP6448128B2 true JP6448128B2 (ja) 2019-01-09

Family

ID=56329040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014263083A Active JP6448128B2 (ja) 2014-12-25 2014-12-25 主題語抽出装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6448128B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0740275B2 (ja) * 1987-10-26 1995-05-01 日本電信電話株式会社 キーワード重要度自動評価装置
JP3960530B2 (ja) * 2002-06-19 2007-08-15 株式会社日立製作所 テキストマイニングプログラム、方法、及び装置
CN104272307A (zh) * 2012-05-18 2015-01-07 索尼公司 信息处理装置、信息处理方法、以及程序
JP5856905B2 (ja) * 2012-05-22 2016-02-10 日本放送協会 主題抽出装置およびそのプログラム

Also Published As

Publication number Publication date
JP2016122398A (ja) 2016-07-07

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
CN105488024B (zh) 网页主题句的抽取方法及装置
Kien et al. Answering legal questions by learning neural attentive text representation
Mei et al. Divrank: the interplay of prestige and diversity in information networks
CN104391842A (zh) 一种翻译模型构建方法和***
CN105917364B (zh) 对问答论坛中讨论话题的排名
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
Dietz ENT Rank: Retrieving entities for topical information needs through entity-neighbor-text relations
KR101925950B1 (ko) 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치
JP5427127B2 (ja) 検索支援システム、検索支援方法及び検索支援プログラム
Baowaly et al. Predicting the helpfulness of game reviews: A case study on the steam store
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
EP2613275B1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN104021202B (zh) 一种知识共享平台的词条处理装置和方法
CN106933380B (zh) 一种词库的更新方法和装置
JP6230190B2 (ja) 重要語抽出装置、及びプログラム
Rao et al. Taxonomy based personalized news recommendation: Novelty and diversity
Chan et al. Learning resource recommendation: An orchestration of Content-based filtering, word semantic similarity and page ranking
JP6448128B2 (ja) 主題語抽出装置、及びプログラム
JP5513929B2 (ja) 経験情報の再利用性評価装置及び方法及びプログラム
Wahsheh et al. Spam detection methods for Arabic web pages
Ali et al. Identifying and Profiling User Interest over time using Social Data
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180906

TRDD Decision of grant or rejection written
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181203

R150 Certificate of patent or registration of utility model

Ref document number: 6448128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250