JP3831392B2 - 言語知識獲得プログラム - Google Patents
言語知識獲得プログラム Download PDFInfo
- Publication number
- JP3831392B2 JP3831392B2 JP2004235582A JP2004235582A JP3831392B2 JP 3831392 B2 JP3831392 B2 JP 3831392B2 JP 2004235582 A JP2004235582 A JP 2004235582A JP 2004235582 A JP2004235582 A JP 2004235582A JP 3831392 B2 JP3831392 B2 JP 3831392B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- occurrence frequency
- character
- basic data
- data file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
つまり、文字列「6メガビットDRAM」は、前方からの生起頻度計算において意味の単位を構成するように計算されるが、後方からの生起頻度計算において他の文字列の部分文字列になっている場合がある。そこで、本発明の言語知識獲得プログラムでは、後方に包含する文字列を除去するため、図15のような処理を行う。
(付記1) コンピュータに、
取得した解析対象文から文字列の全ての組合せを基礎データとして出力する基礎データ出力手順と、
前記基礎データに基づき前記文字列ごとの生起頻度および独立生起頻度を算出し、算出した生起頻度に応じて一の文字列の部分列に相当する他の文字列を除去して言語知識として出力する言語知識出力手順と
を実行させるための言語知識獲得プログラム。
(付記2) 前記言語知識出力手順は、一の文字列の生起頻度と前記一の文字列の部分列に相当する他の文字列の生起頻度とを比較し、一の文字列の生起頻度と前記一の文字列の部分列に相当する他の文字列の生起頻度とが同じときに前記一の文字列の部分列に相当する他の文字列を除去することを特徴とする付記1記載の言語知識獲得プログラム。
(付記3) 前記言語知識出力手順は、一の文字列の部分列に相当する他の文字列の生起頻度から前記一の文字列の生起頻度を減算し、前記一の文字列の部分列に相当する他の文字列の独立生起頻度を算出することを特徴とする付記1記載の言語知識獲得プログラム。
(付記4) 前記言語知識出力手順は、算出した生起頻度が所定の閾値以下の前記文字列を除去することを特徴とする付記1記載の言語知識獲得プログラム。
(付記5) 前記言語知識出力手順は、前記基礎データに基づき前記文字列ごとの生起頻度および独立生起頻度を算出し、算出した生起頻度に応じて一の文字列の部分列に相当する他の文字列を除去する前方包含部分列除去手順と、
前記文字列を構成する文字の順番を前後入れ替えたあと、前記文字列ごとの生起頻度および独立生起頻度を算出し、算出した生起頻度に応じて一の文字列の部分列に相当する他の文字列を除去する後方包含部分列除去手順と、
前記文字列を構成する文字の順番を元に戻したあと、前記文字列を言語知識として出力する言語知識出力手順と
を有することを特徴とする付記1記載の言語知識獲得プログラム。
(付記6) コンピュータに、
形態素解析を行う文から所定の言語知識格納手段に格納されている全ての文字列を取得し、取得した全ての文字列を前記形態素解析を行う文に記載されている順番に並び替えて形態素テーブルを生成する形態素テーブル生成手順と、
前記全ての文字列の始点および終点を分割点として計数し、前記分割点の数に応じて前記形態素解析を行う文の分割位置を決定する分割位置決定手順と、
決定した分割位置に応じた形態素解析結果を出力する形態素解析結果出力手順と
を実行させるための形態素解析プログラム。
(付記7) 前記形態素テーブル生成手順は、一の文字列を構成する文字を見出しとして設定し、前記文字を始点とする他の文字列を前記文字と対応付けて形態素テーブルを生成することを特徴とする付記6記載の形態素解析プログラム。
(付記8) 前記分割位置決定手順は、全ての文字列の始点および終点から前記見出しごとの分割点を計数し、計数した分割点の数が大きい見出し位置を前記分割位置と決定することを特徴とする付記7記載の形態素解析プログラム。
(付記9) 前記言語知識格納手段は、解析対象文から文字列の全ての組合せを基礎データとして出力し、前記基礎データに基づき前記文字列ごとの生起頻度および独立生起頻度を算出し、算出した生起頻度に応じて一の文字列の部分列に相当する他の文字列を除去して生成された言語知識を格納していることを特徴とする付記6記載の形態素解析プログラム。
(付記10) コンピュータに、
取得した解析対象文から文字列の全ての組合せを基礎データとして出力する基礎データ出力手順と、
前記基礎データに基づき前記文字列ごとの生起頻度および独立生起頻度を算出し、算出した生起頻度に応じて一の文字列の部分列に相当する他の文字列を除去して言語知識として出力する言語知識出力手順と
を実行させるための言語知識獲得プログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記11) コンピュータに、
形態素解析を行う文から所定の言語知識格納手段に格納されている全ての文字列を取得し、取得した全ての文字列を前記形態素解析を行う文に記載されている順番に並び替えて形態素テーブルを生成する形態素テーブル生成手順と、
前記全ての文字列の始点および終点を分割点として計数し、前記分割点の数に応じて前記形態素解析を行う文の分割位置を決定する分割位置決定手順と、
決定した分割位置に応じた形態素解析結果を出力する形態素解析結果出力手順と
を実行させるための形態素解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
10 入力装置
11 表示装置
12 ドライブ装置
13 記録媒体
14 補助記憶装置
15 メモリ装置
16 演算処理装置
B バス(bus)
21 記事データベース
22 基礎データ
23 解析対象メモリ
31 n−gram語彙辞書
32 形態素テーブル
Claims (1)
- コンピュータを、
解析対象メモリから解析対象文を取得し、該解析対象文の文字列の全ての組合せを基礎データファイルに出力する抽出手段と、
前記基礎データファイルのソートを行う第一のソート手段と、
前記基礎データファイルに格納されている各文字列の生起頻度を計算する第一の生起頻度計算手段と、
前記基礎データファイルの隣接する一の文字列と該一の文字列の部分文字列の生起頻度を比較し、該生起頻度が同一であった場合は、該部分文字列を除去する第一の除去手段と、
前記基礎データファイルの一の文字列の生起頻度を、該一の文字列を部分文字列とする隣接する一の文字列の生起頻度を除いた数として書き換える第一の独立生起頻度計算手段と、
前記基礎データファイルの各文字列を構成する文字の前後を置換する第一の文字列順序置換手段と、
前記基礎データファイルのソートを行う第二のソート手段と、
前記基礎データファイルに格納されている各文字列の生起頻度を計算する第二の生起頻度計算手段と、
前記基礎データファイルの隣接する一の文字列と該一の文字列の部分文字列の生起頻度を比較し、該生起頻度が同一であった場合は、該部分文字列を除去する第二の除去手段と、
前記基礎データファイルの一の文字列の生起頻度を、該一の文字列を部分文字列とする隣接する一の文字列の生起頻度を除いた数として書き換える第二の独立生起頻度計算手段と、
前記基礎データファイルの各文字列を構成する文字の前後を置換する第二の文字列順序置換手段と、
前記基礎データファイルに格納された文字列、該文字列ごとの生起頻度、該文字列ごとの独立生起頻度を言語知識として出力する出力手段として動作させることを特徴とする言語知識獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004235582A JP3831392B2 (ja) | 2004-08-12 | 2004-08-12 | 言語知識獲得プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004235582A JP3831392B2 (ja) | 2004-08-12 | 2004-08-12 | 言語知識獲得プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002092762A Division JP2003288337A (ja) | 2002-03-28 | 2002-03-28 | 言語知識獲得プログラムおよび形態素解析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005032269A JP2005032269A (ja) | 2005-02-03 |
JP3831392B2 true JP3831392B2 (ja) | 2006-10-11 |
Family
ID=34214363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004235582A Expired - Fee Related JP3831392B2 (ja) | 2004-08-12 | 2004-08-12 | 言語知識獲得プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3831392B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
JP2012141783A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | 情報処理装置、複合語抽出方法、及び複合語抽出プログラム |
-
2004
- 2004-08-12 JP JP2004235582A patent/JP3831392B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005032269A (ja) | 2005-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2726568B2 (ja) | 文字認識方法及び装置 | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20100023318A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20080059146A1 (en) | Translation apparatus, translation method and translation program | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
US20220028391A1 (en) | Method for processing a video file comprising audio content and visual content comprising text content | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP3831392B2 (ja) | 言語知識獲得プログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
CN115169328A (zh) | 一种高准确性的中文拼写检查方法、***及介质 | |
JP2003288337A (ja) | 言語知識獲得プログラムおよび形態素解析プログラム | |
CN113158693A (zh) | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP5057916B2 (ja) | 固有表現抽出装置、その方法、プログラム及び記録媒体 | |
US20110320493A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
KR20080028655A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP2014235584A (ja) | 文書分析システム、文書分析方法およびプログラム | |
JP2020046909A (ja) | 学習装置、抽出装置及び学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060713 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100721 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110721 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120721 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |