JP6584795B2 - 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム - Google Patents
語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム Download PDFInfo
- Publication number
- JP6584795B2 JP6584795B2 JP2015044661A JP2015044661A JP6584795B2 JP 6584795 B2 JP6584795 B2 JP 6584795B2 JP 2015044661 A JP2015044661 A JP 2015044661A JP 2015044661 A JP2015044661 A JP 2015044661A JP 6584795 B2 JP6584795 B2 JP 6584795B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- unknown word
- unknown
- notation
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、形態素解析機能41は、平文コーパス24aについて、形態素解析処理を実行する(ステップA1)。形態素解析機能41は、形態素解析処理によって、平文コーパス24aに含まれる日本語のテキストデータを単語に分割し、各単語について品詞を付与する。
ここでは、平文コーパス24aに、日本語テキスト「風邪の初期症状の訴えがあったため、葛根湯を処方しました。LNの腫れはありません。」を含み、この日本語テキスト以外の大量のテキストに「初期症状」「葛根湯」などの表記が、それぞれ複数回出現する場合の例を示している。
例えば、複合語として抽出された表記や、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なる表記は、辞書追加登録効果が高いと判断して、語彙リスト24gの上位に位置づけたりしても良い。また、出現頻度が多い、複合語である、Webクローリングデータ24dから抽出した読み情報が形態素解析機能41の解析結果と異なるなど、辞書追加登録効果の判断結果が同じ表記が複数ある場合は、さらに別の辞書追加登録効果の判断基準に基づいて表記を並べ替えても良い。
第1指標:平文コーパス24aにおける出現頻度が高いこと。
第2指標:正式名称リスト24bにおける出現頻度が高いこと。
第3指標:構築済み辞書24eに登録された表記と同じ品詞の語彙が多いこと。
第4指標:Webクローリングデータ24dから抽出した読み情報が形態素解析結果から推測される読みと異なること。
第5指標:平文コーパス24a中で表記の直前直後に現れる形態素の異なり数が多いこと。
第6指標:表記の重み評価値tf−idfの値が大きいこと。
第7指標:複合語の独立性を評価する指標(C−value,MC−valueなど)が高いこと。
w:注目している単語
length(w):wの長さ(wを構成する単語の数)
n(w):wの出現回数
t(w):wを含むより長い複合語の出現回数
c(w):wを含むより長い複合語の異なり数
注目している単語がより長い複合語の一部としてしか使われていない場合は、C−valueは0に近い値となる。C−valueの値が大きい語は、独立性が高い。C−valueはwが一つの単語のみから構成される場合は必ず0となってしまうため、一つの単語であっても0以外の評価値となるMC−valueなどの修正式を使用することができる。
Claims (8)
- 平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をする形態素解析手段と、
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
前記複合語抽出手段により抽出された前記複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたWebクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも1つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段とを有する語彙知識獲得装置。 - 前記未知語関連情報付与手段は、
前記未知語関連情報として、前記未知語に対して、推定される品詞、出現頻度、前記Webクローリングデータから抽出した読み・スニペット・情報源、読み・表記・品詞が類似する構築済み辞書登録語、類似登録語の使用頻度、辞書の登録語の追加削除を行った場合の解析結果の差分の情報の少なくとも1つを抽出して付与する請求項1記載の語彙知識獲得装置。 - 前記未知語関連情報付与手段は、
前記Webクローリングデータの取得元とするWebサイトの信頼性評価リストを備え、
前記Webクローリングデータから抽出した読み・スニペットの情報を付与する際に、前記信頼性評価リストに設定されたWebサイトの評価値に基づいて情報を選択する請求項2記載の語彙知識獲得装置。 - 前記結果出力手段は、前記辞書追加登録効果の判断基準として、複数の指標のうち一つもしくは複数の組み合わせに基づいて並べ替えをする請求項1記載の語彙知識獲得装置。
- 前記複合語抽出手段は、
前記形態素解析の結果から、複合語を構成する可能性のある品詞が隣接して現れる部分の組み合わせの全てを複合語候補として抽出する請求項1記載の語彙知識獲得装置。 - 前記語彙リストに含まれる未知語を前記構築済み辞書に追加する前後の前記構築済み辞書を用いた解析結果の差分の情報を取得する辞書編集手段をさらに有し、
前記未知語関連情報付与手段は、解析結果の差分の情報を前記未知語に付与する請求項1記載の語彙知識獲得装置。 - 装置により実行される語彙知識獲得方法であって、
平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をし、
前記形態素解析の結果をもとに複合語を抽出し、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出し、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与し、
前記形態素解析の結果をもとに抽出された前記複合語から略称を生成し、
前記略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与し、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたWebクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも1つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する語彙知識獲得方法。 - コンピュータを、
平文コーパスに含まれるテキストを単語に分割して、各単語に品詞と読みを付与する形態素解析をする形態素解析手段と、
前記形態素解析の結果をもとに複合語を抽出する複合語抽出手段と、
前記形態素解析で得られた単語、及び複合語抽出で得られた複合語を構築済み辞書の登録語と比較し、前記構築済み辞書に登録されていない未知語を抽出する未知語抽出手段と、
前記未知語に対する読みの候補を外部から取得されるデータから抽出して、未知語関連情報として前記未知語に付与する未知語関連情報付与手段と、
前記複合語抽出手段により抽出された前記複合語から略称を生成する略称推定手段と、
前記略称推定手段により生成された略称と前記未知語とが一致する場合に、前記略称の生成元とする複合語を正式表記候補として前記未知語に付与する正式表記候補付与手段と、
前記未知語と前記未知語関連情報と前記正式表記候補を合わせて、前記未知語に対する指標とする、前記平文コーパスにおける出現頻度の高さ、名称の表記が登録された名称リストにおける出現頻度の高さ、前記構築済み辞書に登録された表記と同じ品詞の語彙の多さ、ネットワークを通じて外部から取得されたWebクローリングデータから抽出した読み情報と前記形態素解析の結果から推測される読みとの相違、前記平文コーパス中で表記の直前直後に現れる形態素の異なり数の多さ、特定の文書のみに高頻度で出現する表記に対して高い値を示す重み評価値の大きさ、文書における単語間の結合度を示す複合語の独立性を評価する値、のうちの少なくとも1つの指標をもとに判断される辞書追加登録効果の高い順に並べて語彙リストとして出力する結果出力手段として機能させるための語彙知識獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044661A JP6584795B2 (ja) | 2015-03-06 | 2015-03-06 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044661A JP6584795B2 (ja) | 2015-03-06 | 2015-03-06 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016164724A JP2016164724A (ja) | 2016-09-08 |
JP6584795B2 true JP6584795B2 (ja) | 2019-10-02 |
Family
ID=56876655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015044661A Expired - Fee Related JP6584795B2 (ja) | 2015-03-06 | 2015-03-06 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6584795B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6789755B2 (ja) * | 2016-10-20 | 2020-11-25 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
KR102662571B1 (ko) * | 2018-03-02 | 2024-05-07 | 삼성전자주식회사 | 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체 |
KR102635811B1 (ko) * | 2018-03-19 | 2024-02-13 | 삼성전자 주식회사 | 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법 |
JP7200022B2 (ja) | 2019-03-26 | 2023-01-06 | 株式会社ゼンリンデータコム | 地図作成装置、方法およびプログラム |
JP2020166509A (ja) * | 2019-03-29 | 2020-10-08 | 日本電信電話株式会社 | 新語候補抽出装置、新語候補抽出方法、及びプログラム |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN116702786B (zh) * | 2023-08-04 | 2023-11-17 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和*** |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319884A (ja) * | 1994-05-25 | 1995-12-08 | Hitachi Ltd | 類義語作成システム |
JP3748322B2 (ja) * | 1997-10-29 | 2006-02-22 | 富士通株式会社 | 単語登録装置及び記録媒体 |
JPH11328166A (ja) * | 1998-05-15 | 1999-11-30 | Brother Ind Ltd | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP5450276B2 (ja) * | 2010-06-14 | 2014-03-26 | 株式会社Nttドコモ | 読み推定装置、読み推定方法、および読み推定プログラム |
-
2015
- 2015-03-06 JP JP2015044661A patent/JP6584795B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016164724A (ja) | 2016-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6584795B2 (ja) | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム | |
Schäfer et al. | Web corpus construction | |
Spasić et al. | FlexiTerm: a flexible term recognition method | |
JP2006252382A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2008522332A (ja) | 自動的に文書を拡充するシステムおよび方法 | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
Aksyonoff | Introduction to Search with Sphinx: From installation to relevance tuning | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
Erjavec et al. | A web corpus and word sketches for Japanese | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
Radoev et al. | AMAL: answering french natural language questions using DBpedia | |
JP2017151553A (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
JP5499546B2 (ja) | 重要語抽出方法、装置、プログラム、記録媒体 | |
JPWO2016151690A1 (ja) | 文書検索装置、方法及びプログラム | |
US20170220557A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
Sweetnam et al. | Natural language processing and early-modern dirty data: applying IBM Languageware to the 1641 depositions | |
Reinel et al. | Sentiment phrase generation using statistical methods | |
Yasukawa et al. | Stemming Malay text and its application in automatic text categorization | |
JP2004318480A (ja) | 電子機器装置、新語抽出方法、およびプログラム | |
Srdanovic et al. | A web corpus and word sketches for Japanese | |
JP2004287781A (ja) | 重要度算出装置 | |
Falk et al. | The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words | |
Rosales Méndez | Towards a fine-grained entity linking approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180914 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190524 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6584795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |