JP2018092367A - 関連語抽出装置及びプログラム - Google Patents
関連語抽出装置及びプログラム Download PDFInfo
- Publication number
- JP2018092367A JP2018092367A JP2016235181A JP2016235181A JP2018092367A JP 2018092367 A JP2018092367 A JP 2018092367A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2016235181 A JP2016235181 A JP 2016235181A JP 2018092367 A JP2018092367 A JP 2018092367A
- Authority
- JP
- Japan
- Prior art keywords
- time
- content
- text
- unit
- related word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明によれば、関連語抽出装置は、時刻情報と対応付けられたテキストデータである時系列テキストを参照し、各文字列の時系列の出現頻度を算出する。関連語抽出装置は、算出した時系列の出現頻度を用いて文字列間に因果関係があるか否かを判定し、キーワードと因果関係があると判定した文字列を関連語として出力する。
これより、関連語抽出装置は、語の共起や概念辞書を用いることなく、キーワードと時期を同じくして話題となる語や、キーワードに関する事象と因果関係がある事象に関する語を関連語として提示することができる。
この発明によれば、関連語抽出装置は、キーワードの関連語を用いてコンテンツを検索し、検索により特定されたコンテンツの情報をユーザに提示する。
本実施形態によれば、関連語抽出装置は、キーワードに関連したコンテンツをユーザに提示することができる。
この発明によれば、関連語抽出装置は、インターネットで話題となっている語をキーワードとして抽出し、そのキーワードのインターネット上での時系列の出現頻度と、コンテンツに関する情報から得られた各文字列の時系列の出現頻度とを用いて、コンテンツに関する情報からキーワードの関連語を取得する。関連語抽出装置は、取得した関連語を用いてコンテンツを検索し、関連語により示されるコンテンツのテーマと、その関連語が得られた時系列テキストにより特定されるコンテンツの情報を、ユーザに提示する。
これにより、関連語抽出装置は、インターネット上で話題となっている事象に関連するコンテンツと、そのコンテンツのテーマとをユーザに提示することができる。
本実施形態では、ユーザが指定したキーワードの関連語を抽出する。
図1は、第1の実施形態による関連語抽出装置10の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。関連語抽出装置10は、入力部11と、関連語抽出部12と、出力部13とを備え、関連語抽出部12は、時系列テキスト記憶部122と時系列文字列テーブル記憶部123とを備える。
相関値算出部125は、時系列文字列テーブルが示す各文字列の時系列の頻度に基づいて、文字列同士の相関値を算出する相関値算出処理を行う。ここで、相関値は、文字列間の因果関係の強さを定量的に表す値である。
相関値算出部125は、算出された相関値に基づいて一定以上の相関があると判断した文字列同士を対応づけた関連語テーブルを生成する。相関値算出部125は、入力されたキーワードの関連語を関連語テーブルから抽出する。
続いて、関連語抽出装置10の動作を説明する。
図4は、関連語抽出装置10の動作を示すフローチャートである。
まず、ステップS105において、関連語抽出装置10の入力部11は、キーワードの入力を受ける。例えば、関連語抽出装置10の入力部11は、ユーザが入力したキーワードを端末から受信し、関連語抽出部12に出力する。
ステップS110において、関連語抽出部12の時系列頻度抽出部124は、図5に示す時系列文字列テーブル作成処理を行う。
ステップS205において、時系列頻度抽出部124は、時系列テキスト記憶部122に記憶される時系列テキストのうち、未選択の一つを選択して読み出す。
ステップS210において、時系列頻度抽出部124は、選択した時系列テキストから時刻情報を取得する。
本実施形態では、第1の実施形態と同様の処理により抽出した関連語を用いて検索したコンテンツをユーザに推薦する。以下では、第1の実施形態との差分を中心に記載する。
図8は、関連語抽出装置20の動作を示すフローチャートである。同図において、図4に示すフローチャートと同一の処理には同一の符号を付し、その説明を省略する。関連語抽出装置20は、図4のステップS105〜ステップS125と同様の処理を行う。
第2の実施形態では時系列テキストとコンテンツテキスト情報とが異なるデータであるが、本実施形態では、時系列テキストとコンテンツテキスト情報とが同一のデータである。以下では、第2の実施形態との差分を中心に記載する。
本実施形態では、最近話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。以下では、第2の実施形態との差分を中心に記載する。
本実施形態では、最近インターネットで話題となっている語をキーワードとして用い、関連語の抽出と、コンテンツの推薦を行う。
コンテンツ検索部54は、関連語が得られた時系列テキストに対応付けられたコンテンツIDを時系列テキスト記憶部522−2から読み出し、読み出したコンテンツIDに対応付けられた番組のコンテンツ紹介情報をコンテンツ情報記憶部33から読み出す。コンテンツ検索部54は、読み出したコンテンツ紹介情報と、そのコンテンツ紹介情報と同じコンテンツIDに対応付けられた時系列テキストに含まれる関連語とを関連付けて出力部13に出力する。この関連語は、コンテンツのテーマを表す。
図12は、関連語抽出装置50の動作を示すフローチャートである。
ステップS505において、入力部11により検索開始が入力されると、キーワード抽出部51は、時系列テキスト記憶部522−1に記憶される時系列テキストのうち、現在から1日、1週間、1ヶ月などの比較的期間の時系列テキストを特定する。キーワード抽出部51は、特定した時系列テキストを用いて、第3の実施形態のキーワード抽出部42と同様の処理により、キーワードWa1、Wa2、…、Wam(mは1以上の整数)となる文字列を抽出し、時系列頻度抽出部524−1に出力する。
ステップS530において、相関値算出部525は、生成した関連語テーブルをコンテンツ検索部54に出力する。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
11…入力部
12、32、52…関連語抽出部
13…出力部
21、33…コンテンツ情報記憶部
22、34、54…コンテンツ検索部
41…時系列テキスト記憶部
42、51…キーワード抽出部
121、321、521−1、521−2…記憶部
122、322、522−1、522−2…時系列テキスト記憶部
123、523−1、523−2…時系列文字列テーブル記憶部
124、524−1、524−2…時系列頻度抽出部
125、525…相関値算出部
Claims (4)
- テキストデータに含まれる各文字列の関連語を抽出する関連語抽出装置であって、
所定のキーワードを入力する入力部と、
時刻情報と対応付けられた前記テキストデータである時系列テキストを記憶する記憶部と、
前記時系列テキストに含まれる前記各文字列が時系列で出現するときの出現頻度である時系列頻度を抽出する時系列頻度抽出部と、
前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、異なる前記文字列の間の因果関係の強さを定量的に表す値である相関値を算出し、算出された前記相関値に基づいて異なる前記文字列が関連するか否かを判定する相関値算出部と、
前記相関値算出部が前記キーワードの文字列に関連すると判定した他の前記文字列を関連語として出力する出力部と、
を備えることを特徴する関連語抽出装置。 - 請求項1に記載の関連語抽出装置において、
コンテンツに関する情報を示すテキストデータであるコンテンツテキスト情報を記憶するコンテンツ情報記憶部と、
前記関連語を用いて前記コンテンツテキスト情報を検索するコンテンツ検索部とをさらに備え、
前記出力部は、
前記コンテンツ検索部が検索した結果得られた前記コンテンツテキスト情報により特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。 - 請求項1に記載の関連語抽出装置において、
前記記憶部は、
インターネット上のウェブページに含まれる前記テキストデータ及び前記時刻情報を含む第1の時系列テキストと、コンテンツに関する情報を示すテキストデータ及び時刻情報を含む第2の時系列テキストとを記憶し、
当該関連語抽出装置は、
前記第1の時系列テキストからキーワードを抽出するキーワード抽出部をさらに有し、
前記時系列頻度抽出部は、
前記第1の時系列テキストに含まれる前記キーワードの時系列頻度と、前記第2の時系列テキストに含まれる各文字列の時系列頻度とを抽出し、
前記相関値算出部は、
前記キーワードと前記文字列のそれぞれについて前記時系列頻度抽出部が抽出した前記時系列頻度を用いて、前記キーワードと前記文字列との相関値とを算出し、算出された当該相関値に基づいて前記文字列が前記キーワードに関連するか否かを判定し、
前記出力部は、
前記相関値算出部により前記キーワードに関連すると判定された前記文字列をコンテンツのテーマを表す関連語として出力し、出力した当該関連語を含む前記第2の時系列テキストにより特定される前記コンテンツの情報を出力する、
ことを特徴とする関連語抽出装置。 - コンピュータを、請求項1から請求項3のいずれか一項に記載の関連語抽出装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016235181A JP2018092367A (ja) | 2016-12-02 | 2016-12-02 | 関連語抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016235181A JP2018092367A (ja) | 2016-12-02 | 2016-12-02 | 関連語抽出装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018092367A true JP2018092367A (ja) | 2018-06-14 |
Family
ID=62566196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016235181A Pending JP2018092367A (ja) | 2016-12-02 | 2016-12-02 | 関連語抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018092367A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021051368A (ja) * | 2019-09-20 | 2021-04-01 | ヤフー株式会社 | 提供装置、提供方法及び提供プログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092491A (ja) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | サーバ、及び関連語提案方法 |
JP2007257390A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 新たな複合語を抽出するシステム |
WO2008087728A1 (ja) * | 2007-01-18 | 2008-07-24 | Fujitsu Limited | キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
US20120215792A1 (en) * | 2011-02-18 | 2012-08-23 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for searching related terms |
JP2013254366A (ja) * | 2012-06-07 | 2013-12-19 | Ntt Docomo Inc | 情報処理装置および関連語判断方法 |
JP2016197332A (ja) * | 2015-04-03 | 2016-11-24 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理システム、情報処理方法、およびコンピュータプログラム |
-
2016
- 2016-12-02 JP JP2016235181A patent/JP2018092367A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092491A (ja) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | サーバ、及び関連語提案方法 |
JP2007257390A (ja) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | 新たな複合語を抽出するシステム |
WO2008087728A1 (ja) * | 2007-01-18 | 2008-07-24 | Fujitsu Limited | キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法 |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
US20120215792A1 (en) * | 2011-02-18 | 2012-08-23 | Hon Hai Precision Industry Co., Ltd. | Electronic device and method for searching related terms |
JP2013254366A (ja) * | 2012-06-07 | 2013-12-19 | Ntt Docomo Inc | 情報処理装置および関連語判断方法 |
JP2016197332A (ja) * | 2015-04-03 | 2016-11-24 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報処理システム、情報処理方法、およびコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
橋本 隆子、外2名: "ソーシャルメディアにおけるバーストパターンの共起に基づく新概念抽出", 第91回 人工知能基本問題研究会資料, JPN6020032097, 26 November 2013 (2013-11-26), JP, pages 47 - 52, ISSN: 0004458694 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021051368A (ja) * | 2019-09-20 | 2021-04-01 | ヤフー株式会社 | 提供装置、提供方法及び提供プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN109690529B (zh) | 按事件将文档编译到时间线中 | |
CN109190049B (zh) | 关键词推荐方法、***、电子设备和计算机可读介质 | |
WO2017020451A1 (zh) | 信息推送方法和装置 | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
US20110099003A1 (en) | Information processing apparatus, information processing method, and program | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Pope et al. | An Analysis of Online Twitter Sentiment Surrounding the European Refugee Crisis. | |
JP5679194B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5068728B2 (ja) | 関連ブログ提示装置、方法及びプログラム | |
KR101606758B1 (ko) | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 | |
JP2006318398A (ja) | ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP5942052B1 (ja) | データ分析システム、データ分析方法、およびデータ分析プログラム | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
Ibrahim et al. | Scientometric re-ranking approach to improve search results | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
JP2018092367A (ja) | 関連語抽出装置及びプログラム | |
US9305103B2 (en) | Method or system for semantic categorization | |
KR101132431B1 (ko) | 관심 정보 제공 시스템 및 방법 | |
CN112802454B (zh) | 一种唤醒词的推荐方法、装置、终端设备及存储介质 | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP5844887B2 (ja) | 通信ネットワークを通じたビデオ・コンテンツ検索のための支援 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191028 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210309 |