JP2012079309A - 単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置 - Google Patents
単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置 Download PDFInfo
- Publication number
- JP2012079309A JP2012079309A JP2011215297A JP2011215297A JP2012079309A JP 2012079309 A JP2012079309 A JP 2012079309A JP 2011215297 A JP2011215297 A JP 2011215297A JP 2011215297 A JP2011215297 A JP 2011215297A JP 2012079309 A JP2012079309 A JP 2012079309A
- Authority
- JP
- Japan
- Prior art keywords
- word
- score
- words
- document
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】本発明の文書のキーワード抽出方法によれば、文書は形態素解析され、解析された結果を用いて単語グラフが生成される。単語の文書関連度スコアは、生成された単語グラフと併合されて単語の重要度を示すキーワードスコアが算出される。算出されたキーワードスコアに応じて単語のうち文書のキーワードが選択される。
【選択図】図5
Description
および「t2」から「t1」への伝達スコア比率
が各々算出され、両値
および
は互いに異なってもよい。
)の和(例えば、
)に反比例してもよい。ここで、特定のノードが2つ以上のリンクに接続された場合、上記のノードに対応する単語の関連度スコアは、リンク数のみが繰り返し加えられてもよい。
次に、最初のステップにおいて、アウトリンクに接続されたノード(すなわち、ノードに対応する単語)に伝達スコアが伝達される過程を説明する。
上記のようなスコア伝達ステップが繰り返されて、伝達されるスコアが閾値以下になる場合、スコア伝達が中断されてもよい。
620 単語生成部
630 単語グラフ生成部
640 関連度スコア算出部
650 伝達スコア算出部
660 キーワードスコア算出部
670 キーワード抽出部
Claims (23)
- 文書のキーワードを抽出する方法であって、
1つ以上の単語の各々の前記文書に対する関連度スコアを算出し、
前記1つ以上の単語の各々に伝達される1つ以上の伝達スコアを算出し、
前記1つ以上の伝達スコアおよび前記関連度スコアに基づいて前記1つ以上の単語の各々のキーワードスコアを算出すること、を含み、
前記1つ以上の伝達スコアは、前記関連度スコアに基づいて生成され、前記1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって伝達されることを特徴とする文書のキーワード抽出方法。 - 前記文書を形態素解析して単語単位に分割することによって、前記1つ以上の単語を生成することをさらに含むことを特徴とする請求項1に記載の文書のキーワード抽出方法。
- 前記1つ以上の単語は、前記文書中の単語のうち特定の品詞に属する単語であり、前記距離は、前記特定の品詞に属する単語に基づいて算出されることを特徴とする請求項1または請求項2に記載の文書のキーワード抽出方法。
- 前記関連度スコアは、文書の集合のうち単語が用いられた文書の数および前記単語の前記文書中での使用頻度のうち1つ以上の情報に基づいて算出されることを特徴とする請求項1から請求項3のいずれか1項に記載の文書のキーワード抽出方法。
- 1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成することをさらに含み、
前記1つ以上のノードの各々は、前記1つ以上の単語の1つの単語に対応し、前記1つ以上のリンクの各々は、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続することを特徴とする請求項1から請求項4のいずれか1項に記載の文書のキーワード抽出方法。 - 前記伝達スコアは、前記単語グラフ中の経路の開始ノードに対応する第1単語から前記経路の最後のノードに対応する第2単語に伝達され、前記経路は、前記1つ以上のリンクのうちの1つ以上の接続されたリンクであることを特徴とする請求項5に記載の文書のキーワード抽出方法。
- 前記経路はサイクルを含まないことを特徴とする請求項6に記載の文書のキーワード抽出方法。
- 前記第1単語から前記第2単語への前記伝達スコアは、前記第1単語の前記関連度スコアおよび前記第1単語から前記第2単語への伝達スコア比率に基づいて算出されることを特徴とする請求項6または請求項7に記載の文書のキーワード抽出方法。
- 前記第1単語から前記第1単語と特定の距離内にある1つ以上の第3単語の各々への前記伝達スコア比率は、前記1つ以上の第3単語の各々の前記関連度スコアおよび前記第1単語に対応するノードから前記第3単語の各々に対応するノードへのリンク数の積に比例することを特徴とする請求項8に記載の文書のキーワード抽出方法。
- 前記第1単語から前記第2単語への伝達スコア比率は、前記1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて算出され、前記リンクに対応する伝達スコア比率は、前記リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であることを特徴とする請求項8または請求項9に記載の文書のキーワード抽出方法。
- 前記1つ以上の単語の一部をキーワードスコアの降順にキーワードとして選択することをさらに含むことを特徴とする請求項1から請求項10のいずれか1項に記載の文書のキーワード抽出方法。
- 請求項1から請求項11のうちいずれか1項に記載の文書のキーワード抽出方法を行うプログラムを収録したコンピュータで読み出し可能な記録媒体。
- 文書のキーワードを抽出する装置において、
1つ以上の単語の各々の前記文書に対する関連度スコアを算出する関連度スコア算出部と、
前記1つ以上の単語各々に伝達される1つ以上の伝達スコアを算出する伝達スコア算出部と、
前記1つ以上の伝達スコアおよび前記関連度スコアに基づいて前記1つ以上の単語各々のキーワードスコアを算出するキーワードスコア算出部と、
を備え、
前記伝達スコア算出部は、前記関連度スコアに基づいて前記1つ以上の伝達スコアを生成し、前記1つ以上の単語のうち相互の距離が特定の値以下である2つの単語によって前記1つ以上の伝達スコアの各々を伝達することを特徴とする文書のキーワード抽出装置。 - 前記文書を形態素解析して単語単位に分割することによって前記1つ以上の単語を生成する単語生成部をさらに備えることを特徴とする請求項13に記載の文書のキーワード抽出装置。
- 前記単語生成部は、前記文書中の単語のうち特定の品詞に属する単語を前記1つ以上の単語として生成し、
前記伝達スコア算出部は、前記特定の品詞に属する単語に基づいて前記距離を算出することを特徴とする請求項13に記載の文書のキーワード抽出装置。 - 前記関連度スコア算出部は、文書の集合のうち単語が用いられた文書の数および前記単語の前記文書中の使用頻度のうち1つ以上の情報に基づいて前記関連度スコアを算出することを特徴とする請求項13から請求項15のいずれか1項に記載の文書のキーワード抽出装置。
- 1つ以上のノードおよび1つ以上のリンクを含む単語グラフを生成する単語グラフ生成部をさらに備え、
前記単語グラフ生成部は、前記1つ以上の単語の各々に対応する前記1つ以上のノードを生成し、相互の距離が特定の値以下である2つの単語に各々対応する2つのノードを接続する1つ以上のリンクを生成することを特徴とする請求項13から請求項16のいずれか1項に記載の文書のキーワード抽出装置。 - 前記伝達スコア算出部は、前記単語グラフ中の経路の開始ノードに対応する第1単語から前記経路の最後のノードに対応する第2単語に伝達スコアを伝達し、前記経路は前記1つ以上のリンクのうち1つ以上の接続されたリンクであることを特徴とする請求項17に記載の文書のキーワード抽出装置。
- 前記経路はサイクルを含まないことを特徴とする請求項18に記載の文書のキーワード抽出装置。
- 前記伝達スコア算出部は、前記第1単語の前記関連度スコアおよび前記第1単語から前記第2単語への伝達スコア比率に基づいて前記第1単語から前記第2単語への前記伝達スコアを算出することを特徴とする請求項18または請求項19に記載の文書のキーワード抽出装置。
- 前記伝達スコア算出部は、前記第1単語と特定の距離内にある1つ以上の第3単語の各々の前記関連度スコアおよび前記第1単語に対応するノードから前記第3単語各々に対応するノードへのリンク数の積に比例するように、前記第1単語から前記1つ以上の第3単語の各々への前記伝達スコア比率を算出することを特徴とする請求項20に記載の文書のキーワード抽出装置。
- 前記伝達スコア算出部は、前記1つ以上の接続されたリンクの各々に対応する伝達スコア比率に基づいて、前記第1単語から前記第2単語への伝達スコア比率を算出し、前記リンクに対応する伝達スコア比率は前記リンクが接続する2つのノードに各々対応する2つの単語間の伝達スコア比率であることを特徴とする請求項20または請求項21に記載の文書のキーワード抽出装置。
- 前記1つ以上の単語の中の一部をキーワードスコアの降順にキーワードとして選択するキーワード抽出部をさらに備えることを特徴とする請求項13から請求項22のいずれか1項に記載の文書のキーワード抽出装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100095117A KR101122436B1 (ko) | 2010-09-30 | 2010-09-30 | 단어의 문서 관련도 점수 및 그래프 구조에 기반한 문서의 키워드 추출 방법 및 장치 |
KR10-2010-0095117 | 2010-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012079309A true JP2012079309A (ja) | 2012-04-19 |
JP5877677B2 JP5877677B2 (ja) | 2016-03-08 |
Family
ID=46141729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011215297A Expired - Fee Related JP5877677B2 (ja) | 2010-09-30 | 2011-09-29 | 単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5877677B2 (ja) |
KR (1) | KR101122436B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145281A (zh) * | 2017-06-15 | 2019-01-04 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
US11302313B2 (en) | 2017-06-15 | 2022-04-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101638535B1 (ko) * | 2014-12-02 | 2016-07-11 | 세종대학교 산학협력단 | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 |
KR101713558B1 (ko) * | 2015-10-30 | 2017-03-08 | 조선대학교산학협력단 | 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법 |
KR102328234B1 (ko) * | 2020-03-18 | 2021-11-17 | 충북대학교 산학협력단 | 소셜 네트워크에서 연관 문서 분석을 통한 지역 이벤트 검출 시스템 및 방법 |
KR102371329B1 (ko) * | 2020-05-20 | 2022-03-07 | 위인터랙트(주) | 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366582A (ja) * | 2001-06-06 | 2002-12-20 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、プログラム、および同プログラムを記録した記録媒体 |
JP2009193219A (ja) * | 2008-02-13 | 2009-08-27 | Nippon Telegr & Teleph Corp <Ntt> | インデックス作成装置、その方法、プログラム及び記録媒体 |
JP2010040020A (ja) * | 2008-08-08 | 2010-02-18 | Yahoo Japan Corp | キーワード抽出装置、方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100896614B1 (ko) | 2007-01-29 | 2009-05-08 | 엔에이치엔(주) | 검색 시스템 및 방법 |
KR101065091B1 (ko) * | 2009-02-17 | 2011-09-16 | 엔에이치엔(주) | 기여 점수에 기초한 문서 순위 결정 시스템 및 방법 |
-
2010
- 2010-09-30 KR KR1020100095117A patent/KR101122436B1/ko active IP Right Grant
-
2011
- 2011-09-29 JP JP2011215297A patent/JP5877677B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366582A (ja) * | 2001-06-06 | 2002-12-20 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、プログラム、および同プログラムを記録した記録媒体 |
JP2009193219A (ja) * | 2008-02-13 | 2009-08-27 | Nippon Telegr & Teleph Corp <Ntt> | インデックス作成装置、その方法、プログラム及び記録媒体 |
JP2010040020A (ja) * | 2008-08-08 | 2010-02-18 | Yahoo Japan Corp | キーワード抽出装置、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6015015807; 三上 崇志 他: '確率伝播法を用いた文書検索用キーワードの自動抽出' 情報処理学会研究報告 Vol.2008,No.33(2008-NL-184(1)), 20080327, pp.1-6, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145281A (zh) * | 2017-06-15 | 2019-01-04 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
CN109145281B (zh) * | 2017-06-15 | 2020-12-25 | 北京嘀嘀无限科技发展有限公司 | 语音识别方法、装置及存储介质 |
US11302313B2 (en) | 2017-06-15 | 2022-04-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
Also Published As
Publication number | Publication date |
---|---|
KR101122436B1 (ko) | 2012-03-09 |
JP5877677B2 (ja) | 2016-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3180742B1 (en) | Generating and using a knowledge-enhanced model | |
JP5877677B2 (ja) | 単語の文書関連度スコアおよびグラフ構造に基づく文書のキーワード抽出方法および装置 | |
US10055686B2 (en) | Dimensionally reduction of linguistics information | |
KR102354716B1 (ko) | 딥 러닝 모델을 이용한 상황 의존 검색 기법 | |
Mahmud et al. | Csurf: a context-driven non-visual web-browser | |
US7743054B2 (en) | Information retrieval system | |
US20100030770A1 (en) | Searching questions based on topic and focus | |
US20110295845A1 (en) | Semi-Supervised Page Importance Ranking | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
Tiddi et al. | Dedalo: Looking for clusters explanations in a labyrinth of linked data | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
US9251270B2 (en) | Grouping search results into a profile page | |
Van de Camp et al. | The socialist network | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
JP5847290B2 (ja) | ドキュメント検索装置およびドキュメント検索方法 | |
Almarsoomi et al. | AWSS: An algorithm for measuring Arabic word semantic similarity | |
Yazdani et al. | A random walk framework to compute textual semantic similarity: a unified model for three benchmark tasks | |
CN103455623B (zh) | 一种融合多种语言文献的聚类机制 | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
Minkov et al. | Learning graph walk based similarity measures for parsed text | |
Gupta et al. | Text analysis and information retrieval of text data | |
Manotumruksa et al. | CrossBERT: a triplet neural architecture for ranking entity properties | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Rusu et al. | Document visualization based on semantic graphs | |
JP5553033B2 (ja) | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5877677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |