JP5964149B2 - 共起語を特定する装置およびプログラム - Google Patents
共起語を特定する装置およびプログラム Download PDFInfo
- Publication number
- JP5964149B2 JP5964149B2 JP2012138820A JP2012138820A JP5964149B2 JP 5964149 B2 JP5964149 B2 JP 5964149B2 JP 2012138820 A JP2012138820 A JP 2012138820A JP 2012138820 A JP2012138820 A JP 2012138820A JP 5964149 B2 JP5964149 B2 JP 5964149B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- morpheme
- text
- keyword
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
以下に、図面を参照しながら本発明の実施形態について説明する。図1は本実施形態にかかるテキスト検索システム1の構成を示した図である。テキスト検索システム1はユーザが文章の検索に用いる端末装置11と、ユーザにより入力された検索キーワードを端末装置11から受信し、受信した検索キーワードに応じた複数のテキストデータを検索キーワードとの関連度を示す関連度データとともに端末装置11に送信するサーバ装置12を備えている。端末装置11とサーバ装置12はネットワーク9を介して互いに各種データの送受信を行う。
(計時部121)基準の時刻からの経過時間を継続的に計測し、現在時刻を示す時刻データを生成する。
(形態素解析部122)サーバ装置12がインターネットを介して他のサーバ装置から取得してきたテキストデータが示すテキストを形態素解析手法に従い形態素に分割しそれらの形態素を示す形態素データを生成する。
(テキストデータ取得部123)インターネットを介して他のサーバ装置から定期的に新たに公開されたテキストデータを取得する。
(検索キーワードデータ受信部124)端末装置11から検索キーワードを示す検索キーワードデータを受信する。
(関連度データ生成部126)形態素解析部122により生成された形態素データおよび共起語データ抽出部125により生成された共起語データに基づき検索キーワードデータ受信部124により受信された検索キーワードデータとテキストデータ取得部123により取得されたテキストデータとの関連度を示す関連度データを生成する。
(関連度データ送信部127)関連度データ生成部126により生成された関連度データに従いテキストデータ取得部123により取得されたテキストデータをソートし、関連度データとともに端末装置11に送信する。
(記憶部128)各種データを記憶する。
(辞書DB)形態素解析部122が形態素解析を行う際に用いる辞書データを格納したDB(Database)。
(文法DB)形態素解析部122が形態素解析を行う際に用いる文法データを格納したDB。
(テキストDB)テキストデータ取得部123により取得されたテキストデータを格納するDB。
(形態素DB)形態素解析部122により生成された形態素データを格納するDB。
(共起語DB)共起語データ抽出部125により生成された共起語データを格納するDB。
上述した実施形態は本発明の一実施形態であり、本発明の技術的思想の範囲内において様々に変形可能である。以下にそれらの変形の例を示す。
Claims (6)
- 文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成された形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いられたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いられたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段と
を備える装置。 - 前記一のキーワードデータが示す前記一のキーワードを示す形態素データとともに記憶されている一のテキストデータ識別データに関し、前記形態素データ記憶手段において、前記一のキーワードデータに対応する共起語データとして前記共起語データ抽出手段により抽出された形態素データの各々に関し、前記一のテキストデータ識別データとともに記憶されている当該形態素データと同一の形態素データを、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データとして抽出し、前記共起語データ抽出手段により抽出された前記一のキーワードデータに対応する共起語データの各々の数と、前記一のテキストデータに含まれる前記一のキーワードデータに対応する共起語データの各々の数とに基づき、前記一のテキストデータと前記一のキーワードデータとの間の関連度を示す関連度データを生成する関連度データ生成手段
を備える請求項1に記載の装置。 - 前記関連度データ生成手段は、前記共起語データ抽出手段により抽出された共起語データの数に基づき所定の規則に従い定められるウェイトに従い、前記関連度データの生成において各共起語データに関する数の加重を行う
請求項2に記載の装置。 - 端末装置から前記一のキーワードデータもしくは前記一のキーワードデータを含むテキストデータを受信するキーワードデータ受信手段と、
前記テキストデータ取得手段により取得されたテキストデータを記憶するテキストデータ記憶手段と、
前記関連度データ生成手段により算出された、前記テキストデータ記憶手段に記憶されている複数のテキストデータの各々と前記キーワードデータ受信手段により前記端末装置から受信された前記一のキーワードデータとの間の関連度データを、当該複数のテキストデータの各々に関連付けて前記端末装置に送信する関連度データ送信手段と
を備える請求項2または3に記載の装置。 - 前記関連度データ送信手段は、前記複数のテキストデータを、前記関連度データにより示される関連度に従った順序でソートした上で前記関連度データとともに前記端末装置に送信する
請求項4に記載の装置。 - コンピュータを、
文章を示すテキストデータを、時刻を示す時刻データとともに取得するテキストデータ取得手段と、
前記テキストデータ取得手段により取得されたテキストデータが示す文章を形態素解析により形態素に分割して当該分割した形態素を各々示す複数の形態素データを生成する形態素解析手段と、
前記形態素解析手段により複数のテキストデータの各々を分割して生成した形態素データのうちの1以上の形態素データの各々に関し、当該形態素データと、当該形態素データの生成に用いたテキストデータを識別するテキストデータ識別データと、当該形態素データの生成に用いたテキストデータとともに前記テキストデータ取得手段により取得された時刻データとを記憶する形態素データ記憶手段と、
一のキーワードを示す一のキーワードデータに関し、前記形態素データ記憶手段において、所定の期間内の時刻を示す時刻データとともに記憶され、かつ、前記一のキーワードデータが示すキーワードを示す形態素データとともに前記形態素データ記憶手段に記憶されているテキストデータ識別データと同一のテキストデータ識別データとともに記憶されている形態素データを、前記一のキーワードデータに対応する共起語データとして抽出する共起語データ抽出手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012138820A JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014002653A JP2014002653A (ja) | 2014-01-09 |
JP5964149B2 true JP5964149B2 (ja) | 2016-08-03 |
Family
ID=50035751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012138820A Expired - Fee Related JP5964149B2 (ja) | 2012-06-20 | 2012-06-20 | 共起語を特定する装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5964149B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5957048B2 (ja) | 2014-08-19 | 2016-07-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム |
JP6374771B2 (ja) * | 2014-11-19 | 2018-08-15 | Kddi株式会社 | ユーザの記憶が曖昧なレコードを検索する検索装置、プログラム及び方法 |
JP6789860B2 (ja) * | 2017-03-14 | 2020-11-25 | ヤフー株式会社 | 情報提供装置、情報提供方法、および情報提供プログラム |
JP6767465B2 (ja) * | 2018-12-14 | 2020-10-14 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN111522863B (zh) * | 2020-04-15 | 2023-07-25 | 北京百度网讯科技有限公司 | 一种主题概念挖掘方法、装置、设备以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318939A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書処理方法及び装置並びにその処理プログラムを記憶した媒体 |
JP2002183175A (ja) * | 2000-12-08 | 2002-06-28 | Hitachi Ltd | テキストマイニング方法 |
JP2007018285A (ja) * | 2005-07-07 | 2007-01-25 | Cac:Kk | 情報提供システム、情報提供方法、情報提供装置並びに情報提供プログラム |
JP4234740B2 (ja) * | 2006-08-03 | 2009-03-04 | 株式会社東芝 | キーワード提示装置、プログラムおよびキーワード提示方法 |
JP2009116457A (ja) * | 2007-11-02 | 2009-05-28 | Intec Systems Institute Inc | インターネットサイト情報分析方法と装置 |
WO2009096523A1 (ja) * | 2008-01-30 | 2009-08-06 | Nec Corporation | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム |
JP5330046B2 (ja) * | 2009-03-23 | 2013-10-30 | 株式会社東芝 | 共起表現抽出装置及び共起表現抽出方法 |
-
2012
- 2012-06-20 JP JP2012138820A patent/JP5964149B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014002653A (ja) | 2014-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101506380B1 (ko) | 무한 브라우즈 | |
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
JP5731250B2 (ja) | 情報ストリーム中の興味深いコンテンツを推奨するためのシステムおよび方法 | |
JP5168961B2 (ja) | 最新評判情報通知プログラム、記録媒体、装置及び方法 | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
US20070143300A1 (en) | System and method for monitoring evolution over time of temporal content | |
US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
KR101100830B1 (ko) | 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법 | |
JP2007188352A (ja) | ページリランキング装置、ページリランキングプログラム | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2011108053A (ja) | ニュース記事評価システム | |
JP2009169924A (ja) | 特徴的キーワード検出装置、特徴的キーワード検出方法、プログラムおよび記録媒体 | |
Strzelecki et al. | Direct answers in Google search results | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
US20100306224A1 (en) | Online Measurement of User Satisfaction Using Long Duration Clicks | |
JP5151368B2 (ja) | 情報処理装置および情報処理プログラム | |
JP2008262506A (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
KR101850853B1 (ko) | 빅데이터를 이용한 검색 방법 및 장치 | |
KR101308821B1 (ko) | 검색엔진용 키워드 추출 시스템 및 추출 방법 | |
CN105740436B (zh) | 基于互联网搜索技术的文字作品推送方法和装置 | |
JP2008234559A (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
Tian et al. | A prediction model for web search hit counts using word frequencies | |
JP4462014B2 (ja) | 話題語結合方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5964149 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |