JP6467937B2 - 文書処理プログラム、情報処理装置および文書処理方法 - Google Patents
文書処理プログラム、情報処理装置および文書処理方法 Download PDFInfo
- Publication number
- JP6467937B2 JP6467937B2 JP2015009833A JP2015009833A JP6467937B2 JP 6467937 B2 JP6467937 B2 JP 6467937B2 JP 2015009833 A JP2015009833 A JP 2015009833A JP 2015009833 A JP2015009833 A JP 2015009833A JP 6467937 B2 JP6467937 B2 JP 6467937B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- code
- documents
- encoded
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図20は、情報処理装置のハードウェア構成の一例を示す図である。図20に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータ入力を受け付ける入力装置502と、モニタ503とを有する。また、コンピュータ500は、記憶媒体からプログラムなどを読み取る媒体読取装置504と、他の装置と接続するためのインターフェース装置505と、他の装置と無線により接続するための無線通信装置506とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM(Random Access Memory)507と、ハードディスク装置508とを有する。また、各装置501〜508は、バス509に接続される。
複数の文書から、複数の単語と第1の符号群とを対応付けた第1の符号化情報に基づいて、前記第1の符号化情報に含まれる単語を変換した、複数の第1符号化文書を生成し、
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行い、
前記複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力する、
処理を実行させることを特徴とする文書処理プログラム。
処理を実行させることを特徴とする付記1に記載の文書処理プログラム。
前記第2の符号化が行われた前記複数の第2符号化文書それぞれに対し、前記第1の符号化情報に基づいて前記第1の符号化を行う
処理を実行させることを特徴とする付記1または付記2に記載の文書処理プログラム。
決定した第1符号化文書に対応する前記第1の符号化の符号列を検索する
処理を実行させることを特徴とする付記3に記載の文書処理プログラム。
決定した第1符号化文書に対応する前記第1の符号化の符号列に対して、前記第1のキーワードの第1の符号を前記第2のキーワードの第1の符号に置換する
処理を実行させることを特徴とする付記3に記載の文書処理プログラム。
前記統合する処理によって統合された第1符号化文書を含む前記複数の第1符号化文書における前記頻度集計の結果を更新する
処理を実行させることを特徴とする付記4または付記5に記載の文書処理プログラム。
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行う集計部と、
前記第1符号化部により生成された複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力する第2符号化部と、
を有することを特徴とする情報処理装置。
複数の文書から、複数の単語と第1の符号群とを対応付けた第1の符号化情報に基づいて、前記第1の符号化情報に含まれる単語を変換した、複数の第1符号化文書を生成し、
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行い、
前記複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力する
各処理を実行することを特徴とする文書処理方法。
10 圧縮部
11 中間符号生成部
111 字句解析部
112 中間符号変換部
113 単語カウント部
12 最適符号生成部
121 最適符号割当部
122 最適符号変換部
123 符号情報出力部
20 文書処理制御部
21 最適符号伸長部
211 符号表展開部
212 最適符号伸長部
22 文書処理部
23 最適符号生成部
231 最適符号割当部
232 最適符号変換部
233 符号情報出力部
30 伸長部
31 最適符号伸長部
311 符号表展開部
312 最適符号伸長部
40 記憶部
41 静的単語辞書
42 中間符号表
43 集計情報
44 最適符号表
Claims (7)
- コンピュータに、
複数の文書から、複数の単語と第1の符号群とを対応付けた第1の符号化情報に基づいて、前記第1の符号化情報に含まれる単語を変換した、複数の第1符号化文書を生成し、
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行い、
前記複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力し、
前記複数の第2符号化文書から、前記第2の符号化による符号に対応付けられた前記第1の符号化情報に基づいて、前記複数の第1符号化文書を生成し、
前記複数の第1符号化文書について、前記頻度集計の結果を用いて、所定の文書処理を行う、
処理を実行させることを特徴とする文書処理プログラム。 - 前記出力する処理は、前記複数の第1符号化文書それぞれの頻度集計の結果をマージした統合集計情報を生成し、生成された統合集計情報に基づき、複数の第1符号化文書それぞれを第2の符号化により変換し、複数の第2符号化文書を出力する
処理を実行させることを特徴とする請求項1に記載の文書処理プログラム。 - 前記第1の符号化情報は、複数の単語と固定長の第1の符号群とを対応付け、
前記複数の第1符号化文書を生成する処理は、前記第2の符号化が行われた前記複数の第2符号化文書それぞれに対し、前記第1の符号化情報に基づいて前記第1の符号化を行う
処理を実行させることを特徴とする請求項1または請求項2に記載の文書処理プログラム。 - 前記所定の文書処理を行う処理は、
複数の第1符号化文書から特定のキーワードを含む第1符号化文書を検索する場合に、前記複数の第1符号化文書それぞれの頻度集計の結果に基づいて、前記第1の符号化が行われた前記複数の第1符号化文書の中から前記特定のキーワードを含む第1符号化文書を決定し、
決定した第1符号化文書に対応する前記第1の符号化の符号列を検索する
処理を実行させることを特徴とする請求項1または請求項3に記載の文書処理プログラム。 - 前記所定の文書処理を行う処理は、
複数の第1符号化文書の第1のキーワードを第2のキーワードに置換する場合に、前記複数の第1符号化文書それぞれの頻度集計の結果に基づいて、前記第1のキーワードを含む第1符号化文書を決定し、
決定した第1符号化文書に対応する前記第1の符号化の符号列に対して、前記第1のキーワードの第1の符号を前記第2のキーワードの第1の符号に置換する
処理を実行させることを特徴とする請求項1または請求項3に記載の文書処理プログラム。 - 複数の文書から、複数の単語と第1の符号群とを対応付けた第1の符号化情報に基づいて、前記第1の符号化情報に含まれる単語を変換した、複数の第1符号化文書を生成する第1符号化部と、
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行う集計部と、
前記第1符号化部により生成された複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力する第2符号化部と、
前記複数の第2符号化文書から、前記第2の符号化による符号に対応付けられた前記第1の符号化情報に基づいて、前記複数の第1符号化文書を生成する生成部と、
前記生成部により生成された前記複数の第1符号化文書について、前記頻度集計の結果を用いて、所定の文書処理を行う文書処理部と、
を有することを特徴とする情報処理装置。 - コンピュータが、
複数の文書から、複数の単語と第1の符号群とを対応付けた第1の符号化情報に基づいて、前記第1の符号化情報に含まれる単語を変換した、複数の第1符号化文書を生成し、
前記複数の第1符号化文書における、前記第1の符号化により変換された符号ごとに頻度集計を行い、
前記複数の第1符号化文書それぞれを、前記頻度集計の結果を用いた第2の符号化により変換した、複数の第2符号化文書を出力し、
前記複数の第2符号化文書から、前記第2の符号化による符号に対応付けられた前記第1の符号化情報に基づいて、前記複数の第1符号化文書を生成し、
前記複数の第1符号化文書について、前記頻度集計の結果を用いて、所定の文書処理を行う、
各処理を実行することを特徴とする文書処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015009833A JP6467937B2 (ja) | 2015-01-21 | 2015-01-21 | 文書処理プログラム、情報処理装置および文書処理方法 |
US15/000,784 US20160210508A1 (en) | 2015-01-21 | 2016-01-19 | Encoding apparatus and encoding method |
US16/899,634 US11394956B2 (en) | 2015-01-21 | 2020-06-12 | Encoding apparatus and encoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015009833A JP6467937B2 (ja) | 2015-01-21 | 2015-01-21 | 文書処理プログラム、情報処理装置および文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016134100A JP2016134100A (ja) | 2016-07-25 |
JP6467937B2 true JP6467937B2 (ja) | 2019-02-13 |
Family
ID=56408094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015009833A Active JP6467937B2 (ja) | 2015-01-21 | 2015-01-21 | 文書処理プログラム、情報処理装置および文書処理方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US20160210508A1 (ja) |
JP (1) | JP6467937B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6680126B2 (ja) * | 2016-07-25 | 2020-04-15 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、及び検索方法 |
JP6784084B2 (ja) | 2016-07-27 | 2020-11-11 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、及び検索方法 |
JP6737117B2 (ja) * | 2016-10-07 | 2020-08-05 | 富士通株式会社 | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 |
US11741121B2 (en) * | 2019-11-22 | 2023-08-29 | Takashi Suzuki | Computerized data compression and analysis using potentially non-adjacent pairs |
US10387377B2 (en) | 2017-05-19 | 2019-08-20 | Takashi Suzuki | Computerized methods of data compression and analysis |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4899148A (en) | 1987-02-25 | 1990-02-06 | Oki Electric Industry Co., Ltd. | Data compression method |
JPH05324730A (ja) * | 1992-05-27 | 1993-12-07 | Hitachi Ltd | 文書情報検索装置 |
JPH06348757A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書検索装置および方法 |
JP3249743B2 (ja) | 1996-05-29 | 2002-01-21 | 松下電器産業株式会社 | 文書検索システム |
US5893102A (en) * | 1996-12-06 | 1999-04-06 | Unisys Corporation | Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression |
JP4057681B2 (ja) * | 1997-09-10 | 2008-03-05 | 富士通株式会社 | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
JP3337633B2 (ja) * | 1997-12-03 | 2002-10-21 | 富士通株式会社 | データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3421700B2 (ja) * | 1998-01-22 | 2003-06-30 | 富士通株式会社 | データ圧縮装置及び復元装置並びにその方法 |
US9792308B2 (en) * | 1998-12-11 | 2017-10-17 | Realtime Data, Llc | Content estimation data compression |
AU3274301A (en) * | 2000-01-05 | 2001-07-16 | Realnetworks, Inc. | Systems and methods for multiple-file data compression |
CN1446404A (zh) * | 2000-08-15 | 2003-10-01 | 西加特技术有限责任公司 | 操作码的双模数据压缩 |
JP4774145B2 (ja) * | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
CN1635492A (zh) * | 2003-12-30 | 2005-07-06 | 皇家飞利浦电子股份有限公司 | 一种xml数据的压缩与解压缩方法及装置 |
WO2006123429A1 (ja) * | 2005-05-20 | 2006-11-23 | Fujitsu Limited | 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体 |
US7365658B2 (en) * | 2006-02-28 | 2008-04-29 | The Board Of Trustees Of The University Of Arkansas | Method and apparatus for lossless run-length data encoding |
JP5034621B2 (ja) | 2007-04-04 | 2012-09-26 | 沖電気工業株式会社 | データ圧縮装置、データ併合装置、データ整序装置、データ統合システム、無線タグデータ統合システム、データ圧縮プログラム、データ併合プログラム及びデータ整序プログラム |
WO2008142800A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 |
JP2010055235A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 翻訳支援プログラム、及び該システム |
JP5741577B2 (ja) * | 2010-05-28 | 2015-07-01 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
JP5884412B2 (ja) * | 2011-11-04 | 2016-03-15 | 富士通株式会社 | 変換プログラム、変換装置、変換方法、および変換システム |
JP5939259B2 (ja) * | 2011-11-04 | 2016-06-22 | 富士通株式会社 | 照合制御プログラム、照合制御装置および照合制御方法 |
JP5831298B2 (ja) * | 2012-03-06 | 2015-12-09 | 富士通株式会社 | プログラム、情報処理装置およびインデックス生成方法 |
JP5494860B2 (ja) * | 2013-04-01 | 2014-05-21 | 富士通株式会社 | 情報管理プログラム、情報管理装置および情報管理方法 |
CN105893337B (zh) | 2015-01-04 | 2020-07-10 | 伊姆西Ip控股有限责任公司 | 用于文本压缩和解压缩的方法和设备 |
-
2015
- 2015-01-21 JP JP2015009833A patent/JP6467937B2/ja active Active
-
2016
- 2016-01-19 US US15/000,784 patent/US20160210508A1/en not_active Abandoned
-
2020
- 2020-06-12 US US16/899,634 patent/US11394956B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11394956B2 (en) | 2022-07-19 |
US20160210508A1 (en) | 2016-07-21 |
JP2016134100A (ja) | 2016-07-25 |
US20200304779A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100894002B1 (ko) | 선택적 압축과 복원 및 압축 데이터에 대한 데이터 포맷을위한 장치 및 방법 | |
JP6467937B2 (ja) | 文書処理プログラム、情報処理装置および文書処理方法 | |
US8838551B2 (en) | Multi-level database compression | |
US8120516B2 (en) | Data compression using a stream selector with edit-in-place capability for compressed data | |
CN101809567B (zh) | 文本串的二次散列提取 | |
US9509333B2 (en) | Compression device, compression method, decompression device, decompression method, information processing system, and recording medium | |
US20200233887A1 (en) | Semantic structure search device and semantic structure search method | |
JP6686639B2 (ja) | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 | |
JPWO2013140530A1 (ja) | プログラム、圧縮データ生成方法、伸張方法、情報処理装置、および記録媒体 | |
JP6609404B2 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
EP3193260A2 (en) | Encoding program, encoding method, encoding device, decoding program, decoding method, and decoding device | |
KR101842420B1 (ko) | 정보 처리 장치 및 데이터 관리 방법 | |
US20150248432A1 (en) | Method and system | |
US9479195B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device | |
JP2000201080A (ja) | 付加コ―ドを用いたデ―タ圧縮/復元装置および方法 | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
JP6428936B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
US10915559B2 (en) | Data generation method, information processing device, and recording medium | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
JP6693549B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
WO2017009958A1 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
Li et al. | Shared Dictionary Compression for Efficient Mobile Software Distribution | |
US20190220502A1 (en) | Validation device, validation method, and computer-readable recording medium | |
Islam et al. | Short text compression for smart devices | |
Pannirselvam et al. | A Comparative Analysis on Different Techniques in Text Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181231 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6467937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |