JP5964149B2 - 共起語を特定する装置およびプログラム - Google Patents

共起語を特定する装置およびプログラム Download PDF

Info

Publication number
JP5964149B2
JP5964149B2 JP2012138820A JP2012138820A JP5964149B2 JP 5964149 B2 JP5964149 B2 JP 5964149B2 JP 2012138820 A JP2012138820 A JP 2012138820A JP 2012138820 A JP2012138820 A JP 2012138820A JP 5964149 B2 JP5964149 B2 JP 5964149B2
Authority
JP
Japan
Prior art keywords
data
morpheme
text
keyword
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012138820A
Other languages
English (en)
Other versions
JP2014002653A (ja
Inventor
加藤 剛志
剛志 加藤
桂一 落合
桂一 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012138820A priority Critical patent/JP5964149B2/ja
Publication of JP2014002653A publication Critical patent/JP2014002653A/ja
Application granted granted Critical
Publication of JP5964149B2 publication Critical patent/JP5964149B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザが関心を持つ情報を示すキーワードとともに同じ文章中に出現する言葉である共起語を特定する技術に関する。
広くインターネットを介した情報検索が行われている。情報検索を行うユーザは、例えば端末装置において動作するWebブラウザの検索画面において自分が関心を持つ言葉を検索キーワードとして入力し、検索エンジン機能を備えたサーバ装置に送信する。サーバ装置はインターネット上に公開されている多数のWebページの中から、端末装置から送信されてきた検索キーワードを含むWebページを所定の規則に従い抽出し、その抽出結果を示すWebページを端末装置に送信する。ユーザはサーバ装置から端末装置に送信されてきたWebページにリンクされているWebページを開くことにより、検索キーワードに関連する情報を得ることができる。
しかしながら、検索キーワードの送信に応じてサーバ装置から送信されてくる抽出結果には、ユーザが求める情報を提供しないWebページがリンクされることも多い。そのため、ユーザは多数の検索キーワードを組み合わせるなどして抽出結果の質の向上を図ることができるが、手間である。
そのような手間を軽減する技術として、例えば特許文献1には、ユーザが指定した検索キーワードとともに同じ文章中で高い頻度で使用されている単語を共起語として特定しておき、ユーザが指定した検索キーワードにそれらの共起語を自動的に追加して文章を抽出することで、抽出結果の質の向上を図る技術が提案されている。
特開2003−22275号公報
上記のような検索キーワードによる抽出結果にいわゆるノイズと呼ばれる不要な情報が混入する一つの理由として、検索時点における話題傾向が必ずしも考慮されていない、という点が挙げられる。例えば、最新の液晶ディスプレイの機能を知りたいと思ったユーザが、「液晶ディスプレイ」という検索キーワードを入力しWebページの抽出を行ったとする。その際、もし液晶ディスプレイの基本原理を詳しく説明しているWebページAが長年にわたり多くの人々に閲覧されていれば、抽出結果にそのWebページAが含まれることになる。この場合、ユーザは液晶ディスプレイの基本原理には関心がないため、抽出結果に含まれるWebページAはノイズである。
上記のように、ユーザが現在というタイミングにおけるいわゆる話題傾向を考慮した情報を検索したい場合には、例えば「3D」、「白色LED」、「IPSパネル」などの最近話題性が高まっているキーワードを「液晶ディスプレイ」とともに検索キーワードとして入力すればよい。なお、本願において「話題傾向」とは、多くの人々が関心を示す話題を意味する。話題は単一の言葉ではなく複数の言葉の組み合わせから生じるため、上記のように複数の検索キーワードを組み合わせることにより話題傾向を考慮した抽出結果を得ることができる。
しかしながら、ユーザは必ずしも現在の話題傾向を容易に知ることはできず、従ってそれらの追加すべき検索キーワードを特定することが難しい場合が多い。また、この例のように、話題傾向自体を知りたいこともある。その場合には、ユーザはとりあえず「液晶ディスプレイ」等の一般的な検索キーワードを入力し、その結果として得られるノイズの多い抽出結果の中から必要な情報を探し出さなければならない。
本発明は上記の事情に鑑み、ユーザが興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることを可能とする技術を提供することを目的とする。
上述した課題を解決するため、本発明は、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段とを備える装置を提案する。
このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が抽出されるため、特定のキーワードに関連する特定期間における話題傾向を示す情報が得られる。
また、上述した装置において、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段を備える、という構成が採用されてもよい。
このような装置によれば、特定期間内に公開された多数のテキストデータにおいて特定のキーワードと共に用いられている共起語が、特定のテキストデータにおいてその特定のキーワードと共にどれだけ用いられているかという情報に基づき、特定期間内における特定のテキストデータと特定のキーワードとの間の関連度が特定される。従って、ユーザはその特定期間内における話題傾向を把握していなくても、それらの話題傾向を考慮した上で特定のキーワードに関連すると思われるテキストデータを得ることができる。
また、上述した装置において、前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う、という構成が採用されてもよい。
このような装置によれば、一般的に話題傾向をより強く特徴付ける出現数が多い共起語が関連度の特定においてより大きく考慮されるため、話題傾向をあまり特徴付けない出現数が少ない共起語が多数存在するような場合であっても、話題傾向の特徴が十分に反映された関連度データが得られる。
また、上述した装置において、端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段とを備える、という構成が採用されてもよい。
このような装置によれば、関連度の特定のための処理がユーザの端末装置とは異なる装置において行われるため、多数のテキストデータに関する形態素解析や共起語の特定、それらの処理の結果の記憶等の処理を各ユーザの端末装置が各々行う必要がない。
また、上述した装置において、前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する、という構成が採用されてもよい。
このような装置によれば、端末装置のユーザは関連度に応じてソートされたテキストデータの内容を見ることにより、特定期間内における話題傾向を考慮した知りたい情報を容易に得ることができるとともに、その順序により、どのような話題が世の中の関心をより多く集めているか、という話題傾向の内容についても知ることができる。
また、本発明は、コンピュータ、文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段として機能させるためのプログラムを提案する。
このようなプログラムによれば、一般的なコンピュータを用いて上述した装置が実現される。
本発明によれば、ユーザは興味を持つキーワードに関連する特定期間内における話題傾向を容易に知ることができる。
本発明の一実施形態にかかるテキスト検索システムの構成を示した図である。 本発明の一実施形態にかかるサーバ装置の機能構成を示した図である。 本発明の一実施形態にかかるテキストDBのデータ構成を模式的に示した図である。 本発明の一実施形態にかかる形態素DBのデータ構成を模式的に示した図である。 本発明の一実施形態にかかる形態素解析部が行う形態素分析の処理の結果例を示した図である。 本発明の一実施形態にかかる共起語DBのデータ構成を模式的に示した図である。 本発明の一実施形態にかかるサーバ装置が形態素データの登録に伴い行う処理を示した図である。 本発明の一実施形態にかかるサーバ装置が共起語データおよび共起係数データの生成に伴い行う処理を示した図である。 本発明の一実施形態にかかるサーバ装置が関連度データの生成および関連度データとテキストデータの送信に伴い行う処理を示した図である。 本発明の一実施形態にかかる端末装置において表示される抽出結果の表示画面を模式的に示した図である。
[実施形態]
以下に、図面を参照しながら本発明の実施形態について説明する。図1は本実施形態にかかるテキスト検索システム1の構成を示した図である。テキスト検索システム1はユーザが文章の検索に用いる端末装置11と、ユーザにより入力された検索キーワードを端末装置11から受信し、受信した検索キーワードに応じた複数のテキストデータを検索キーワードとの関連度を示す関連度データとともに端末装置11に送信するサーバ装置12を備えている。端末装置11とサーバ装置12はネットワーク9を介して互いに各種データの送受信を行う。
なお、図1においては図の簡略化のため端末装置11を1台のみ示しているが、端末装置11の数はテキスト検索システム1を利用するユーザの数に応じて任意に変化する。サーバ装置12の数もまた、テキスト検索システム1におけるテキストデータの検索サービスの規模に応じて任意に変化し得る。
端末装置11は、ユーザから入力されたデータをサーバ装置12に送信可能であり、サーバ装置12から送信されてくるデータを受信可能であり、受信したデータに従いユーザに対する情報の表示が可能な装置であれば如何なる装置であってもよい。従ってその形態は、例えば携帯電話、スマートフォン、ノート型PC(Personal Computer)、タッチパッド型PC、デスクトップ型PC、PDA(Personal Digital Assistant)、通信機能を備えたゲーム端末、通信機能を備えたテレビ等のいずれであってもよい。端末装置11の構成および動作は、サーバ装置との間でデータ通信可能な一般的な端末装置と同様であるので、その説明を省略する。
サーバ装置12のハードウェア構成は、通信機能を備えた一般的なコンピュータのハードウェア構成と同様であるので、その説明を省略する。サーバ装置12は本発明にかかるアプリケーションプログラムに従った処理を行うことにより、図2に示す機能構成を備える装置として動作する。
サーバ装置12はその機能構成部として、以下の構成部を備えている。
(計時部121)基準の時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する。
(形態素解析部122)サーバ装置12がインターネットを介して他のサーバ装置から取得してきたテキストデータが示すテキストを形態素解析手法に従い形態素に分割しそれらの形態素を示す形態素データを生成する。
(テキストデータ取得部123)インターネットを介して他のサーバ装置から定期的に新たに公開されたテキストデータを取得する。
(検索キーワードデータ受信部124)端末装置11から検索キーワードを示す検索キーワードデータを受信する。
(共起語データ抽出部125)主として形態素解析部122により生成された形態素データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータにより示される検索キーワードとともに所定期間内に共に同じテキスト内で用いられている言葉である共起語を抽出し、抽出した共起語を示す共起語データを生成する。
(関連度データ生成部126)形態素解析部122により生成された形態素データおよび共起語データ抽出部125により生成された共起語データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータとテキストデータ取得部123により取得されたテキストデータとの関連度を示す関連度データを生成する。
(関連度データ送信部127)関連度データ生成部126により生成された関連度データに従いテキストデータ取得部123により取得されたテキストデータをソートし、関連度データとともに端末装置11に送信する。
(記憶部128)各種データを記憶する。
また、記憶部128には、以下のデータが記憶されている。
(辞書DB)形態素解析部122が形態素解析を行う際に用いる辞書データを格納したDB(Database)。
(文法DB)形態素解析部122が形態素解析を行う際に用いる文法データを格納したDB。
(テキストDB)テキストデータ取得部123により取得されたテキストデータを格納するDB。
(形態素DB)形態素解析部122により生成された形態素データを格納するDB。
(共起語DB)共起語データ抽出部125により生成された共起語データを格納するDB。
辞書DBおよび文法DBは一般的な形態素解析において用いられる既知のデータベースであるため、そのデータ構成の説明を省略する。
図3はテキストDBのデータ構成の例を模式的に示した図である。テキストDBはテキストデータ取得部123により取得されたテキストデータの各々に応じたデータレコードの集まりであり、各データレコードは、テキストデータを識別するテキストID(Identifier)を格納するデータフィールド「テキストID」、テキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、テキストデータを格納するデータフィールド「テキスト」を備えている。
図4は形態素DBのデータ構成の例を模式的に示した図である。形態素DBは形態素解析部122により生成された形態素データの各々に応じたデータレコードの集まりであり、各データレコードは、形態素データの生成に用いられたテキストデータのテキストIDを格納するデータフィールド「テキストID」、そのテキストデータが取得された時刻を示す時刻データを格納するデータフィールド「時刻」、形態素データを格納するデータフィールド「形態素」を備えている。
形態素解析部122が行う形態素分析は既知の技術であるため、その詳細な説明は省略するが、形態素解析部122が行う形態素分析の処理の結果例を図5に示す。図5は、テキストデータ「○○ツリーはやはり高い。○○ツリータウンも面白そうだな。」を形態素解析部122が形態素分析した際の結果を示している。図5に示されるデータフィールド「表層形」は入力されたテキストから分割された形態素を示している。データフィールド「品詞」は形態素の品詞を示している。データフィールド「原形」は形態素の原形を示している。例えば、表層形が「面白」の形態素は原形が「面白い」であり、以下に説明するサーバ装置12の処理においては言葉の比較が原形により行われ、変化形により同じ意味の言葉が異なる言葉として扱われることはない。従って、形態素DBのデータフィールド「形態素」に格納されるデータは形態素の原形を示すデータである。
なお、形態素解析部122が形態素DBに登録する形態素データは図5に示すようにテキストから分割された形態素(原形)の全てではなく、その言葉が単体で意味を持つ品詞のものに限られる。具体的には、名詞、動詞、形容詞、形容動詞などは形態素DBに登録され、助詞、副詞、助動詞、接続詞、記号などは形態素DBに登録されない。
図6は共起語DBのデータ構成の例を模式的に示した図である。共起語DBは共起語データ抽出部125により生成された共起語データの各々に応じたデータレコードの集まりであり、各データレコードは、端末装置11からサーバ装置12に対し送信されてきた検索のリクエストを識別する検索IDを格納するデータフィールド「検索ID」、検索のリクエストにおいて端末装置11から送信されてきた検索キーワードデータを格納するデータフィールド「検索キーワード」、抽出対象の形態素をそのソースのテキストデータの取得された時刻により絞り込む時間帯を示す時間帯データを格納するデータフィールド「時間帯」、共起語として抽出された形態素を示す共起語データを格納するデータフィールド「共起語」、検索キーワードと共起語との間の共起係数(後述)を示す共起係数データを格納するデータフィールド「共起係数」を備えている。
図6に示されるように、共起語データ抽出部125により生成される共起語データおよび共起係数データは、特定の時間帯内において取得されたテキストから生成された形態素から抽出した共起語およびその共起係数を示している。本実施形態において、この時間帯はサーバ装置12が端末装置11から検索のリクエストを受信した時刻から前1ヶ月間の時間帯であるものとし、共起語データ抽出部125により自動的に設定される。
続いて、テキスト検索システム1の動作を説明する。まず、サーバ装置12は定期的に(例えば、1日に1回、所定時刻に)、インターネットにおいて前日以降に新たに公開された文書を示すテキストデータを様々なサーバ装置からクロールして、それらのテキストデータを用いて形態素解析を行い、形態素データの登録を行う。図7はそれらの形態素データの登録に伴いサーバ装置12が行う処理を示した図である。
まず、テキストデータ取得部123は外部の各サーバ装置に対し、過去最後に同様の要求を行った日時を示す時刻データを含むテキストデータの送信要求を行い、その応答として各サーバ装置から送信されてくる、新たに更新されたテキストデータを受信する(S101)。テキストデータ取得部123は取得したそれらのテキストデータの各々にテキストIDを割り当て、計時部121から取得した時刻データ(その取得時の時刻を示す)とともにテキストDB(図3)に格納する(S102)。
形態素解析部122は、テキストデータ取得部123によりテキストDBに格納されたテキストデータを用いて形態素解析を行い(S103)、生成した形態素データの中から単独で意味を生じる品詞のものを抽出し(S104)、抽出した形態素データを、その生成に用いたテキストデータのテキストIDおよび時刻データとともに形態素DB(図4)に格納する(S105)。以上が形態素データの登録に伴う処理である。
ユーザは、自分が関心を持つ検索キーワードを端末装置11に入力し、サーバ装置12に送信することで、その応答としてサーバ装置12から端末装置11に送信されてくる、その検索キーワードに関連したテキストデータを、その検索キーワードとの関連度データとともに閲覧することができる。その際、サーバ装置12から端末装置11に送信されてくるテキストデータの選択に用いられた関連度データは、例えば、過去1ヶ月間に取得したテキストデータから生成された形態素データに基づき生成された共起語データおよび共起係数データに基づいて生成されたものである。従って、ユーザに対し提供されるテキストデータは、過去1ヶ月における話題傾向が考慮されて抽出されたものである。
図8は、ユーザにより端末装置11に入力された検索キーワードがサーバ装置12に送信された際に、サーバ装置12において行われる共起語データおよび共起係数データの生成に伴う処理を示した図である。
まず、端末装置11から送信された検索キーワードデータは、検索キーワードデータ受信部124により受信される(S201)。検索キーワードデータの受信をトリガに、共起語データ抽出部125は形態素DB(図4)から、データフィールド「時刻」に過去1ヶ月の時間帯に含まれる時刻を示す時刻データが格納されているデータレコード群を抽出する(S202)。
続いて、共起語データ抽出部125はステップS202において抽出したデータレコード群の中から、ステップS201において受信した検索キーワードデータと同じデータがデータフィールド「形態素」に格納されているデータレコード群を抽出する(S203)。
続いて、共起語データ抽出部125はステップS203において抽出したデータレコード群をデータフィールド「テキストID」によりグループ化し、それらのグループの数、すなわち検索キーワードデータを含むテキストデータの数を検索キーワードの出現文書数df(wi)として特定する(S204)。
続いて、共起語データ抽出部125はステップS202において抽出したデータレコード群をデータフィールド「形態素」によりグループ化する(S205)。以下、ステップS205において、第1〜第n(ただし、nは任意の自然数)までの形態素に応じたデータレコード群が生成されたものとする。
続いて、共起語データ抽出部125はステップS205において生成したn個のデータレコード群の中から第m(ただし、mは1以上n以下の任意の自然数)の形態素のデータレコード群を選択する(S206)。
続いて、共起語データ抽出部125はステップS206において選択した第mの形態素のデータレコード群をデータフィールド「テキストID」によりグループ化し、それらのグループの数、すなわち第mの形態素データを含むテキストデータの数を第mの形態素の出現文書数df(wjm)として特定する(S207)。
続いて、共起語データ抽出部125はステップS203において抽出したデータレコード群のいずれかのデータフィールド「テキストID」に格納され、ステップS206において選択した第mの形態素のデータレコード群のいずれかのデータフィールド「テキストID」にも格納されるテキストIDの数を共起文書数df(wi,wjm)として特定する(S208)。なお、このように特定される共起文書数df(wi,wjm)は、検索キーワードデータと第mの形態素を示す形態素データをともに含むテキストデータの数である。
続いて、共起語データ抽出部125はステップ204において特定した出現文書数df(wi)、ステップ207において特定した出現文書数df(wjm)、ステップS208において特定した共起文書数df(wi,wjm)を用いて、以下の式に従い共起係数Dice(wi,wjm)を算出する(S209)。
Figure 0005964149
なお、共起係数とは、2つの単語(この場合、検索キーワードと第mの形態素)が同じ文書に出現する頻度を示す指標であり、上記の式はダイス係数として知られる共起係数の算出式である。
続いて、共起語データ抽出部125はステップ209において算出した共起係数Dice(wi,wjm)を示す共起係数データを、ステップS201において検索キーワードデータの受信に際しその検索のリクエストに対し検索キーワードデータ受信部124により割り振られた検索ID、ステップS201において受信された検索キーワードデータ、検索キーワードデータの受信のタイミングより前1ヶ月間を示す時間帯データ、第mの形態素を示す共起語データとともに共起語DB(図6)に格納する(S210)。
続いて、共起語データ抽出部125はステップS205においてグループ化したn個の形態素に応じたグループの全てに関し、ステップS210の登録処理が完了したか否かを判定する(S211)。ステップS211の判定において、まだ登録処理が完了していない形態素のグループがあると判定した場合(S211;No)、共起語データ抽出部125は処理をステップS206に戻し、第(m+1)の形態素のデータレコード群を選択し、ステップS207以降の処理を行う。一方、ステップS211の判定において、全ての形態素のグループに関し登録処理が完了したと判定した場合(S211;Yes)、共起語データ抽出部125は一連の処理を終了する。
以上が、ユーザが入力した検索キーワードに関する共起語データおよび共起係数データの生成に伴う処理である。
共起語データ抽出部125による共起語データおよび共起係数データの生成の処理が完了すると、続いて関連度データ生成部126による関連度データの生成と、関連度データ送信部127によるテキストデータおよび関連度データの端末装置11に対する送信の処理が行われる。図9はそれらの処理を示した図である。
まず、関連度データ生成部126は、共起語DB(図6)から、ステップS201において端末装置11から送信されてきた検索キーワードデータの受信に伴い検索キーワードデータ受信部124によりその検索のリクエストに対し割り当てられた検索IDをデータフィールド「検索ID」に含むデータレコードを抽出する(S301)。
続いて、関連度データ生成部126は形態素DB(図4)から、データフィールド「時刻」に過去1ヶ月間に含まれる時刻を示す時刻データが格納されているデータレコードを抽出する(S302)。
続いて、関連度データ生成部126はステップS302において抽出したデータレコード群をデータフィールド「テキストID」によりグループ化する(ステップS303)。以下、ステップS303において、第1〜第x(ただし、xは任意の自然数)までのテキストデータに応じたデータレコード群が生成されたものとする。
続いて、関連度データ生成部126はステップS303において生成したx個のデータレコード群の中から第y(ただし、yは1以上x以下の任意の自然数)のテキストデータのデータレコード群を選択する(S304)。
続いて、関連度データ生成部126はステップS304において選択した第yのテキストデータのデータレコード群をデータフィールド「形態素」によりグループ化し、それらのグループの各々に含まれるデータレコードの数をカウントする(S305)。今、ステップS305のグループ化により第1〜第p(ただし、pは任意の自然数)までの形態素に応じたデータレコード群が生成されたものとし、第q(ただし、qは1以上r以下の任意の自然数)の形態素に応じたデータレコード群の数としてデータレコード数Cqがカウントされたものとする。
続いて、関連度データ生成部126は第1〜第pの形態素の各々(以下、第qとする)に関し、共起語DB(図6)から、ステップS201において検索キーワードデータ受信部124により割り当てられた検索IDがデータフィールド「検索ID」に格納され、第qの形態素を示す共起語データがデータフィールド「共起語」に格納されているデータレコードを検索し、検索したデータレコードのデータフィールド「共起係数」に格納される共起係数データを第qの形態素に関する共起係数Dqとして読み出す(S306)。
続いて、関連度データ生成部126は以下の式に従い、第yのテキストデータと検索キーワードデータとの間の関連度Ryを算出し、算出した関連度Ryを示す関連度データを生成する(S307)。
Figure 0005964149
続いて、関連度データ生成部126はステップS303においてグループ化したx個のテキストデータに応じたグループの全てに関し、ステップS307の関連度データの生成処理が完了したか否かを判定する(S308)。ステップS308の判定において、まだ関連度データの生成処理が完了していないテキストデータのグループがあると判定した場合(S308;No)、関連度データ生成部126は処理をステップS304に戻し、第(y+1)のテキストデータのデータレコード群を選択し、ステップS305以降の処理を行う。
一方、ステップS308の判定において、全てのテキストデータのグループに関し関連度データの生成処理が完了したと判定した場合(S308;Yes)、関連度データ生成部126は一連の処理を終え、続いて関連度データ送信部127によるテキストデータおよび関連度データの送信の処理が行われる。
関連度データ送信部127は、第1〜第xのテキストデータを、ステップS303においてグループ化されたデータレコード群の各々に関し、データフィールド「テキストID」に格納されているテキストIDを検索キーとして、テキストDB(図3)から第1〜第xのテキストデータを抽出する(S309)。
続いて、関連度データ送信部127はステップS309において抽出した第1〜第xのテキストデータとステップS307において第1〜第xのテキストデータに関し生成された関連度データとを各々対応付けた後、関連度データが示す関連度の降順となるようにテキストデータをソートする(S310)。
続いて、関連度データ送信部127はステップS310においてソートを行ったテキストデータを、それらに対応付けた関連度データとともに端末装置11に送信する(S311)。以上が関連度データ生成部126による関連度データの生成および関連度データ送信部127によるテキストデータと関連度データの送信に伴う処理である。
端末装置11はサーバ装置12から送信されてくる関連度データを伴うテキストデータを受信すると、その内容を表示する。図10は、端末装置11において表示される抽出結果の表示画面を模式的に示した図である。ユーザは抽出結果の表示画面を見ることにより、先に自分が入力した検索キーワードに関連する文書の内容を知ることができる。その際、表示されるテキストデータは、過去1ヶ月間において検索キーワードと共に同じ文書において用いられた共起語の出現頻度を考慮して選択されたテキストデータであり、またその表示順序は共起語の出現頻度を考慮して算出された関連度の高い順であるため、その内容を読むとユーザは過去1ヶ月間における、検索キーワードに関連する話題傾向を知ることができる。
[変形例]
上述した実施形態は本発明の一実施形態であり、本発明の技術的思想の範囲内において様々に変形可能である。以下にそれらの変形の例を示す。
上述した実施形態においては、テキスト検索システム1が端末装置11とサーバ装置12により構成され、検索キーワードデータの入力および結果表示を除く処理が全てサーバ装置12において行われる。これに代えて、サーバ装置12が行う処理の全てもしくは一部が端末装置11において行われる構成が採用されてもよい。例えば、端末装置11がデスクトップPCのように十分な処理速度、通信速度、記憶容量等を備えている場合、端末装置11がサーバ装置12の役割を兼ねることができる。
また、上述した実施形態においては、共起係数としてDice係数が採用されているが、共起の程度を示す指標であれば、Dice係数以外のいずれの指標が共起係数として採用されてもよい。
また、上述した実施形態においては、ユーザに対し提示されるテキストデータは、過去1ヶ月間にサーバ装置12において取得されたテキストデータの中から抽出されたものであるが、抽出対象のテキストデータの取得時期の範囲は任意に変更可能であり、取得時期に基づく抽出を行わない構成が採用されてもよい。すなわち、共起語データおよび共起係数データの生成において用いる形態素データの取得時刻は過去1ヶ月等の所定期間内に限定されるが、抽出対象のテキストデータはその所定期間外に取得されたものであってもよい。
また、上述した実施形態においては、共起語データおよび共起係数データの生成において用いる形態素データをその取得時刻に基づき絞り込む際に用いる所定期間を過去1ヶ月間としたが、この所定期間は任意に変更可能であり、例えばユーザが検索キーワードを入力する際にこの所定期間を指定可能とし、ユーザにより指定された所定期間において取得された形態素データに基づき、共起語データおよび共起係数データの生成が行われる構成が採用されてもよい。
また、上述した実施形態においては、所定期間内における出現回数の多少にかかわらず全ての形態素が一様に関連度データの生成に用いられるが、例えば所定期間内における出現回数が多い形態素に対し、出現回数が少ない形態素よりも大きいウェイトを与え、関連度データの生成においてウェイトに応じて加重することにより、出現回数が多い形態素が共起語として出現するほど、出現回数が少ない形態素が共起語として出現する場合よりも高い関連度を示す関連度データが生成される構成が採用されてもよい。例えば、所定の閾値より少ない出現回数の形態素にはウェイトとして「0」を与え、所定の閾値以上の出現回数の形態素にはウェイトとして「1」を与えることにより、所定の閾値以上の出現回数の形態素のみを関連度データの生成において考慮する構成が採用されてもよい。
また、上述した実施形態においては、形態素データに対応する時刻データとして、そのソースとなるテキストデータが取得された時刻を示す時刻データが用いられる構成が採用されている。形態素データに対応する時刻データはこれに限られず、例えばソースとなるテキストデータにその文書の掲載時刻を示す時刻データが伴っている場合には、その時刻データを形態素データに対応する時刻データとして用いる構成が採用されてもよい。
また、上述した実施形態においては、ユーザが単一の検索キーワードを入力し、単一の検索キーワードデータに応じた関連度データの生成が行われるものとしたが、ユーザが複数の検索キーワードを入力し、それらの複数の検索キーワードを各々示す複数の検索キーワードデータに応じた関連度データの生成が行われる構成が採用されてもよい。その場合、例えば関連度データ生成部126が各検索キーワードデータに関し算出した関連度の加算値を示す関連度データを生成する構成が採用されてもよい。
さらに、ユーザが検索キーワードを入力する代わりにテキストデータを指定し、サーバ装置12において形態素解析部122によりそのテキストデータから分割して生成した複数の形態素データを検索キーワードとして用いる構成が採用されてもよい。その場合、ユーザは自分が興味を持った文書を指定することで、その文書に関連する文書を読むことができる。その場合も、ユーザに提示されるテキストデータは所定期間における話題傾向が考慮されて選択されたものとなる。
また、上述した実施形態においては、関連度データは共起語の出現数に対し共起係数により重み付けをしたものを合算した数値を示すものとしたが、例えば共起係数を用いず、共起語の出現数を示すデータをそのまま関連度データとして用いたり、共起係数とは異なる係数を用いたりしてもよい。
また、上述した実施形態においては、サーバ装置12から端末装置11に送信されるテキストデータは対応する関連度が高い順(降順)にソートされるものとしたが、例えば、サーバ装置12から端末装置11に対しては任意の順序で並べられたテキストデータが関連度データとともに送信され、端末装置11においてテキストデータのソートが行われる構成が採用されてもよい。また、ソートの順序は任意に変更可能である。例えば、テキストデータが示すテキストの長さ順や取得された時刻が新しい順などでソートが行われてもよい。また、テキストデータがWebページに掲載されており、そのテキストデータに対し他のWebページから貼られているリンクの数やそのWebページの閲覧数といったそのテキストデータに対する世間の関心度の指標となるデータが得られる場合には、それらの指標(リンク数や閲覧数など)に従いソートが行われる構成が採用されてもよい。
また、上述した実施形態においては、一般的なコンピュータに本発明にかかるプログラムに従った処理を実行させることによりサーバ装置12が実現されるものとしたが、例えば図2に示した機能構成をハードウェアにより実現するいわゆる専用機としてサーバ装置12が構成されてもよい。
なお、上述した実施形態において示した数式や処理フローの内容および順序は説明のための一例であって、様々に変更可能である。
1…テキスト検索システム、9…ネットワーク、11…端末装置、12…サーバ装置、121…計時部、122…形態素解析部、123…テキストデータ取得部、124…検索キーワードデータ受信部、125…共起語データ抽出部、126…関連度データ生成部、127…関連度データ送信部、128…記憶部

Claims (6)

  1. 文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
    前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
    前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
    一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段と
    を備える装置。
  2. 前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段
    を備える請求項1に記載の装置。
  3. 前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う
    請求項2に記載の装置。
  4. 端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、
    前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、
    前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段と
    を備える請求項2または3に記載の装置。
  5. 前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する
    請求項4に記載の装置。
  6. コンピュータ
    文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
    前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
    前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
    一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段
    として機能させるためのプログラム。
JP2012138820A 2012-06-20 2012-06-20 共起語を特定する装置およびプログラム Expired - Fee Related JP5964149B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012138820A JP5964149B2 (ja) 2012-06-20 2012-06-20 共起語を特定する装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012138820A JP5964149B2 (ja) 2012-06-20 2012-06-20 共起語を特定する装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2014002653A JP2014002653A (ja) 2014-01-09
JP5964149B2 true JP5964149B2 (ja) 2016-08-03

Family

ID=50035751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012138820A Expired - Fee Related JP5964149B2 (ja) 2012-06-20 2012-06-20 共起語を特定する装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5964149B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5957048B2 (ja) 2014-08-19 2016-07-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
JP6374771B2 (ja) * 2014-11-19 2018-08-15 Kddi株式会社 ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法
JP6789860B2 (ja) * 2017-03-14 2020-11-25 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム
JP6767465B2 (ja) * 2018-12-14 2020-10-14 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN111522863B (zh) * 2020-04-15 2023-07-25 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318939A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書処理方法及び装置並びにその処理プログラムを記憶した媒体
JP2002183175A (ja) * 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法
JP2007018285A (ja) * 2005-07-07 2007-01-25 Cac:Kk 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
JP2009116457A (ja) * 2007-11-02 2009-05-28 Intec Systems Institute Inc インターネットサイト情報分析方法と装置
WO2009096523A1 (ja) * 2008-01-30 2009-08-06 Nec Corporation 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP5330046B2 (ja) * 2009-03-23 2013-10-30 株式会社東芝 共起表現抽出装置及び共起表現抽出方法

Also Published As

Publication number Publication date
JP2014002653A (ja) 2014-01-09

Similar Documents

Publication Publication Date Title
KR101506380B1 (ko) 무한 브라우즈
KR101171405B1 (ko) 검색 결과에서 배치 내용 정렬의 맞춤화
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
JP5731250B2 (ja) 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法
JP5168961B2 (ja) 最新評判情報通知プログラム、記録媒体、装置及び方法
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
US8332208B2 (en) Information processing apparatus, information processing method, and program
KR101100830B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2011108053A (ja) ニュース記事評価システム
JP2009169924A (ja) 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体
Strzelecki et al. Direct answers in Google search results
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US20100306224A1 (en) Online Measurement of User Satisfaction Using Long Duration Clicks
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
CN105740436B (zh) 基于互联网搜索技术的文字作品推送方法和装置
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
Tian et al. A prediction model for web search hit counts using word frequencies
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160629

R150 Certificate of patent or registration of utility model

Ref document number: 5964149

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees