JP6433045B2 - キーワード抽出装置およびプログラム - Google Patents
キーワード抽出装置およびプログラム Download PDFInfo
- Publication number
- JP6433045B2 JP6433045B2 JP2014096836A JP2014096836A JP6433045B2 JP 6433045 B2 JP6433045 B2 JP 6433045B2 JP 2014096836 A JP2014096836 A JP 2014096836A JP 2014096836 A JP2014096836 A JP 2014096836A JP 6433045 B2 JP6433045 B2 JP 6433045B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- text
- storage unit
- data storage
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この構成により、キーワード抽出部は長いキーワードを優先的にマッチングさせる処理を行う。長いキーワードは、マッチング処理の結果の精度が良いため、装置全体としてのキーワード抽出の精度が上がる。
この構成により、所定の長さ以上のキーワードについては、形態素解析処理前にマッチング行う。これにより、長いキーワードの抽出の精度がより向上する。これは形態素解析処理自体の特性として、語長の長い名詞部分を正しく出力するのが困難である、という問題を回避することにもつながる。
この構成により、第1のテキストデータだけでなく、第2のテキストデータをも用いて、つまり第2のテキストデータに含まれていたキーワードをも用いて、ローカルコーパスデータを生成することができる。
この構成により、テキストデータ内における言い換えや表現の揺れなどに対応して、名寄せした結果を出力することができる。
この構成により、キーワード検出の精度を上げることができる。つまり、キーワードの誤検出を防ぐことができる。また、キーワードの種類(例えば、漢字、ひらかな、カタカナ、英数字、特殊文字等の、文字の種別による分類)ごとに、キーワードに関する知識を適用することができる。
また、本発明によれば、形態素解析処理において正しく処理されにくい、長いキーワードの検出も、精度よく行うことができる。
また、本発明によれば、テレビの字幕等のテキストデータから精度よくキーワードを抽出し、テレビ放送と連携したサービスにおいて、そのようなキーワードを利用することができるようになる。
図1は、本実施形態によるキーワード抽出装置の機能構成を示すブロック図である。この図において、符号1はキーワード抽出装置である。図示するように、キーワード抽出装置1は、コーパスデータベース構築処理部11と、大規模コーパスデータベース記憶部12(コーパスデータ記憶部)と、ローカルコーパスデータベース生成部13(ローカルコーパスデータ生成部)と、ローカルコーパスデータベース記憶部14(ローカルコーパスデータ記憶部)と、字幕・番組説明文抽出部16(テキスト取得部)と、キーワード抽出部17と、カテゴリー抽出部18と、を含んで構成される。
また、このキーワード抽出装置1の機能は、大別してオフラインで行うオフライン処理部と、リアルタイム処理を行うオンライン処理部とから構成される。オフライン処理の典型的なものは、コーパスデータベース構築処理部11による、大規模コーパスデータベースの構築の処理である。オンライン処理の中心は、受信中のデジタル放送信号を元に、リアルタイムに字幕テキストからキーワードを抽出する処理(キーワード抽出部17)である。
大規模コーパスデータベース記憶部12は、テキストとのマッチング処理に使用するためのキーワードの集合を格納しておく記憶手段である。
別の観点では、ローカルコーパスデータベース生成部13は、字幕・番組説明文抽出部16が取得した第1のテキストデータ(番組説明文)を元にキーワードを抽出し、抽出したキーワードを、ローカルコーパスデータベース記憶部14に登録する。
なお、ローカルコーパスデータベースは、番組ごとに区別した形で存在する。後述する通り、利用者がテレビ番組を視聴中に番組を切り替えた場合には、使用するローカルコーパスデータベースも切り替えられる。
ローカルコーパスデータベース記憶部14は、現在処理中の(字幕・番組説明文抽出部16が取得中の)所定範囲内のテキストデータのみを対象とするために、キーワードの集合を格納しておく。所定範囲とは、例えば、テレビ放送における一つの番組の範囲である。
また、キーワード抽出部17は、語長の長いものから優先させて大規模コーパスデータベース記憶部12から読み出す大規模コーパスデータ、およびローカルコーパスデータベース記憶部14から読み出すローカルコーパスデータのそれぞれから読み出したキーワードと、字幕・番組説明文抽出部16から受け取った字幕テキストとをマッチングさせる。
また、キーワード抽出部17は、大規模コーパスデータベースおよびローカルコーパスデータベースが保持するキーワード間の関連付け情報(言い換え可能な関係)を参照することによって、字幕テキストデータから抽出した複数のキーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数のキーワードを統合する名寄せ処理を行ってから出力する。
つまり、コーパスデータベースは、各々のキーワードと、そのキーワードの語長とを関連付けて格納する。
また、コーパスデータベースでは、キーワードは、その種類ごとにまとめて格納されている。ここで、キーワードの種類とは、漢字、ひらがな、カタカナ、英数字、その他特殊文字などといった、タイプの別である。この種類の使い方については、後述する。
また、コーパスデータベースは、言い換えによるキーワードに関しては、言い換え前のキーワードへのリンク情報をも保持する。
なお、このフローチャートの処理に入る前に、大規模コーパスデータベースおよびローカルコーパスデータベースは、それぞれ既に構築されている。それらそれぞれの構築方法等については、後で別の図を参照しながら説明する。特に、大規模コーパスデータベースはオフライン処理として最初に構築されている。
次にステップS2において、キーワード抽出部17が、字幕・番組説明文抽出部16から渡された字幕テキストを、大規模コーパスデータベース(大規模コーパスデータベース記憶部12)およびローカルコーパスデータベース(ローカルコーパスデータベース記憶部14)とマッチングさせることによる、段階的なキーワード抽出を行う。このキーワード抽出処理の詳細については、別の図を参照しながら後で説明する。
言い換えると、キーワード抽出装置1は、字幕から検出されたキーワードを除いた字幕文に対して、引き続き、キーワードの検出を行う。そして、検出対象となる字幕要素がなくなるか、あるいは大規模コーパスデータベースおよびローカルコーパスデータベースの要素がなくなるか、のいずれかまで同じ処理を繰り返し行う。
なお、上の処理におけるエイリアス情報は、名寄せ処理のために用いることができる。
次にステップS32において、ローカルコーパスデータベース生成部13は、受け取った番組説明文のテキストから、主要なキーワードを抽出する。
判断の結果、番組が切り替えられていた場合(ステップS34:YES)にはステップS35に進む。番組が切り替えられていなかった場合(ステップS34:NO)にはステップS37に飛ぶ。
判断の結果、番組が終了した場合(ステップS36:YES)にはステップS38に進む。番組が終了していない場合(ステップS36:NO)にはステップS37に進む。
(a)漢字のキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナまたは英数字がある場合は、その検出は正しい。
(b)漢字のキーワードの場合:4文字以上の漢字が連続している場合は、その検出は正しい。
(c)カタカナのキーワードの場合:テキスト中で検出されたそのキーワードの前または後にカタカナがある場合は、その検出は誤りである。
なお、ルールはこれらに限定されない。
ステップS68に進んだ場合、キーワード抽出部17は、次の字幕テキストの処理のために図6のステップS51に戻る。なお、次の字幕テキストのデータも、字幕・番組説明文抽出部16から渡される。
つまり、キーワード抽出部17は、先ず語長の長いものから優先させて、所定の下限語長(K)までのキーワードを字幕テキストデータとマッチングさせることによって字幕テキストデータに含まれるキーワードを抽出し、次に、字幕テキストデータについて抽出済みのキーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに大規模コーパスデータベースおよびローカルコーパスデータベースのそれぞれから読み出したキーワードとマッチングさせることによって形態素解析処理の結果に含まれるキーワードを抽出する。
上記実施形態によるキーワード抽出手法では、大規模なカテゴリー情報付きの辞書コーパスデータベースとの網羅的な照合処理で字幕などのテキスト文からキーワードを抽出する処理で、従来のキーワード抽出処理の課題を解決するもので、以下の項目よりなる。
(1)大規模な辞書コーパスデータベースの各要素との照合処理。照合処理を語長順、単語の種類別に行うことにより、照合精度を向上させる。
(2)名寄せ処理用のローカル辞書コーパスの生成と利用。語句の言い換えなどに対応するために辞書コーパスデータベースのデータ構造を工夫して、名寄せ用情報を付加して、キーワード抽出時に必要に応じて名寄せ用辞書コーパスを生成し、その辞書コーパスとも照合処理することにより名寄せ処理を実現する。
(3)カテゴリー情報を伴うキーワード情報を出力することができる。
例えば、ローカルコーパスデータベースは番組ごとに構築されるが、番組が終了するなどして不要となったローカルコーパスデータベースを、適切なタイミング(番組終了時、番組終了時から所定時間経過後、など)で削除するようにしても良い。これにより、キーワード抽出装置1内の記憶手段を効率的に使用できる。
11 コーパスデータベース構築処理部
12 大規模コーパスデータベース記憶部(コーパスデータ記憶部)
13 ローカルコーパスデータベース生成部(ローカルコーパスデータ生成部)
14 ローカルコーパスデータベース記憶部(ローカルコーパスデータ記憶部)
16 字幕・番組説明文抽出部(テキスト取得部)
17 キーワード抽出部
18 カテゴリー抽出部
Claims (8)
- キーワードの集合を格納しておくコーパスデータ記憶部と、
テキストデータを取得するテキスト取得部と、
前記テキスト取得部が現在取得している所定範囲内のテキストデータのみに適用するために、キーワードの集合を格納しておくローカルコーパスデータ記憶部と、
前記テキスト取得部が取得した第1のテキストデータを元にキーワードを抽出し、抽出した前記キーワードを、前記ローカルコーパスデータ記憶部に登録するローカルコーパスデータ生成部と、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって、前記第2のテキストデータに含まれる前記キーワードを抽出するキーワード抽出部と、
を具備し、
前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれは、各々のキーワードの語長と関連付けて前記キーワードを格納しており、
前記キーワード抽出部は、前記語長の長いものから優先させて前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせる、
ことを特徴とするキーワード抽出装置。 - 前記キーワードは、名詞または名詞句であり、
前記キーワード抽出部は、先ず前記語長の長いものから優先させて、所定の下限語長までの前記キーワードを前記第2のテキストデータとマッチングさせることによって前記第2のテキストデータに含まれるキーワードを抽出し、次に、前記第2のテキストデータについて抽出済みの前記キーワードを名詞または名詞句であるとした前提のもとで形態素解析処理を行い、この形態素解析処理の結果として得られた名詞または名詞句について、さらに前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードとマッチングさせることによって前記形態素解析処理の結果に含まれるキーワードを抽出する、
ことを特徴とする請求項1に記載のキーワード抽出装置。 - 前記ローカルコーパスデータ記憶部は、前記所定範囲ごとに異なる前記キーワードの集合を格納するものであり、
前記キーワード抽出部は、前記テキスト取得部が取得した前記第2のテキストデータが属する前記所定範囲が切り替えられた場合には、変更後の前記所定範囲に対応する前記キーワードの集合に切り替えて、前記ローカルコーパスデータ記憶部から前記キーワードを読み出し前記第2のテキストデータとのマッチングに用いる、
ことを特徴とする請求項1または請求項2に記載のキーワード抽出装置。 - テキスト取得部は、テレビの放送信号に基づくテキストデータを取得するものであり、
前記第1のテキストデータは、テレビの番組に関する番組説明文のデータであり、
前記第2のテキストデータは、前記番組における字幕テキストのデータであり、
前記所定範囲は、前記番組内における前記字幕テキストの範囲である、
ことを特徴とする請求項3に記載のキーワード抽出装置。 - 前記キーワード抽出部は、抽出したキーワードの情報を前記ローカルコーパスデータ生成部に渡し、
前記ローカルコーパスデータ生成部は、前記キーワード抽出部によって前記第2のテキストデータから抽出された前記キーワードを、さらに前記ローカルコーパスデータ記憶部に登録する、
ことを特徴とする請求項1から4までのいずれか一項に記載のキーワード抽出装置。 - 前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部は、それぞれ、格納する複数の前記キーワード間で言い換え得る関係にあるキーワード同士の関連付け情報を保持し、
前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部が保持する前記関連付け情報を参照することによって、前記第2のテキストデータから抽出した複数の前記キーワードが言い換え得る関係にある場合には、それら言い換え得る関係にある複数の前記キーワードを統合する名寄せ処理を行ってから出力する、
ことを特徴とする請求項1から5までのいずれか一項に記載のキーワード抽出装置。 - 前記キーワード抽出部は、前記コーパスデータ記憶部および前記ローカルコーパスデータ記憶部のそれぞれから読み出した前記キーワードと、前記テキスト取得部が取得した第2のテキストデータとをマッチングさせることによって検出したキーワードに関して、前記キーワードを構成する文字の種類に応じたルールを適用することによって検出誤りであるか否かを確認し、検出誤りではないことが確認された場合にのみ当該キーワードを抽出する、
ことを特徴とする請求項1から6までのいずれか一項に記載のキーワード抽出装置。 - コンピューターを、
請求項1から7までのいずれか一項に記載のキーワード抽出装置、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014096836A JP6433045B2 (ja) | 2014-05-08 | 2014-05-08 | キーワード抽出装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014096836A JP6433045B2 (ja) | 2014-05-08 | 2014-05-08 | キーワード抽出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015215681A JP2015215681A (ja) | 2015-12-03 |
JP6433045B2 true JP6433045B2 (ja) | 2018-12-05 |
Family
ID=54752535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014096836A Expired - Fee Related JP6433045B2 (ja) | 2014-05-08 | 2014-05-08 | キーワード抽出装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6433045B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753656A (zh) * | 2018-12-29 | 2019-05-14 | 咪咕互动娱乐有限公司 | 一种数据处理方法、装置及存储介质 |
CN112015884A (zh) * | 2020-08-28 | 2020-12-01 | 欧冶云商股份有限公司 | 一种用户走访数据关键词提取方法、装置及存储介质 |
CN116978384B (zh) * | 2023-09-25 | 2024-01-02 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079745A (ja) * | 2005-09-12 | 2007-03-29 | Sharp Corp | ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体 |
JP2008118232A (ja) * | 2006-11-01 | 2008-05-22 | Hitachi Ltd | 映像再生装置 |
JP5202217B2 (ja) * | 2008-09-30 | 2013-06-05 | Kddi株式会社 | 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム |
-
2014
- 2014-05-08 JP JP2014096836A patent/JP6433045B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015215681A (ja) | 2015-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636146B2 (en) | Content analysis to enhance voice search | |
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
JP6484236B2 (ja) | オンライン音声翻訳方法及び装置 | |
JP4623985B2 (ja) | 電子番組ガイド(epg)データのフリーテキスト検索および属性検索 | |
US10504039B2 (en) | Short message classification for video delivery service and normalization | |
JP4580885B2 (ja) | シーン情報抽出方法、シーン抽出方法および抽出装置 | |
US9008489B2 (en) | Keyword-tagging of scenes of interest within video content | |
CN103914513B (zh) | 一种实体输入方法和装置 | |
CN103984772B (zh) | 文本检索字幕库生成方法和装置、视频检索方法和装置 | |
CN112541095B (zh) | 视频标题生成方法、装置、电子设备及存储介质 | |
JP6433045B2 (ja) | キーワード抽出装置およびプログラム | |
US20210126945A1 (en) | Illegal content search device, illegal content search method, and program | |
CN108345679B (zh) | 一种音视频检索方法、装置、设备及可读存储介质 | |
CN111324705A (zh) | 自适应性调整关连搜索词的***及其方法 | |
US11947635B2 (en) | Illegal content search device, illegal content search method, and program | |
KR20020084302A (ko) | 문자 메시지를 이용한 캐릭터 이미지 추출 및 전송 장치와그 방법 | |
KR20160131730A (ko) | 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체 | |
JP2008225676A (ja) | 辞書検索装置及びその制御プログラム | |
US20210026930A1 (en) | Illegal content search device, illegal content search method, and program | |
US20210011982A1 (en) | Illegal content search device, illegal content search method, and program | |
JP6625087B2 (ja) | 違法コンテンツ探索装置及び違法コンテンツ探索方法 | |
JP6632564B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
JP2016153975A (ja) | 情報処理装置、侵害検知装置、情報処理方法、およびプログラム | |
JP6621437B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6433045 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |