JP2016170750A - データ管理プログラム、情報処理装置およびデータ管理方法 - Google Patents

データ管理プログラム、情報処理装置およびデータ管理方法 Download PDF

Info

Publication number
JP2016170750A
JP2016170750A JP2015051797A JP2015051797A JP2016170750A JP 2016170750 A JP2016170750 A JP 2016170750A JP 2015051797 A JP2015051797 A JP 2015051797A JP 2015051797 A JP2015051797 A JP 2015051797A JP 2016170750 A JP2016170750 A JP 2016170750A
Authority
JP
Japan
Prior art keywords
data
word
encoded
unit
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015051797A
Other languages
English (en)
Inventor
将夫 出内
Masao Ideuchi
将夫 出内
片岡 正弘
Masahiro Kataoka
正弘 片岡
和夫 嶺野
Kazuo Mineno
和夫 嶺野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015051797A priority Critical patent/JP2016170750A/ja
Priority to KR1020160023575A priority patent/KR20160111327A/ko
Priority to EP16157605.3A priority patent/EP3070615A1/en
Priority to US15/054,494 priority patent/US10380240B2/en
Priority to CN201610108617.4A priority patent/CN105988980A/zh
Priority to AU2016201253A priority patent/AU2016201253A1/en
Publication of JP2016170750A publication Critical patent/JP2016170750A/ja
Priority to AU2017248412A priority patent/AU2017248412B2/en
Priority to KR1020180009390A priority patent/KR101842420B1/ko
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】符号化データに基づいてテキストマイニング処理を行う場合に、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間を短縮する。
【解決手段】情報処理装置100は、単語群のそれぞれに符号を割り当てた単語辞書131を用いた、テキストデータの符号化と、単語群のそれぞれについてのテキストデータ内の出現頻度を示すカウントマップ132の生成を実行する。情報処理装置100は、カウントマップ132を、符号化された符号化テキストデータと関連付けて記憶部130に記憶する。
【選択図】図3

Description

本発明は、データ管理プログラムなどに関する。
1つの意味単位とみなせる単語と圧縮コードとを対にして格納するコード変換辞書を参照して、入力された文書データを圧縮データに圧縮変換する技術が開示されている(例えば、特許文献1など参照)。
ここで、圧縮変換された圧縮データに基づいてテキストマイニング処理を行う場合がある。かかる場合に、まず、圧縮データに対して伸長処理が行なわれ、伸長処理により得られた伸長データに対して字句解析、構文解析、意味解析などのテキストマイニング処理が行われる。
また、文書データを単語ごとに分割し、分割された単語の出現頻度を算出し、単語を出現頻度順にソートした状態の単語出現頻度テーブルを作成する技術が開示されている(例えば、特許文献3など参照)。文書データを単語ごとに分割する処理は、字句解析と呼ばれる。
特開平5−324730号公報 特開平9−214352号公報 特開平6−348757号公報 特表2005−530224号公報
しかしながら、圧縮データに基づいてテキストマイニング処理を行う場合に、テキストマイニング処理の処理結果を得るまでの処理時間が長くなってしまうという問題がある。すなわち、圧縮データに基づいてテキストマイニング処理を行う場合に、圧縮データに対して伸長処理が行なわれ、伸長処理により得られた伸長データに対してテキストマイニング処理が実行される。したがって、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間が長くなってしまう。
ここで、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間が長くなってしまうという問題について、図1を参照して説明する。図1は、データ管理処理の一例を示す図である。図1では、LZ77系やLZ78系の圧縮アルゴリズムを適用した場合とする。図1に示すように、データ管理処理は、未圧縮状態のファイルを、最長一致の文字列を用いて圧縮し、圧縮ファイルを管理する。そして、データ管理処理は、テキストマイニング処理の実行指示を受け取ると、テキストマイニング処理対象の圧縮ファイルを伸長し、字句解析を行う。すなわち、データ管理処理は、伸長した文字列を単語ごとに分割する。そして、データ管理処理は、分割した単語をカウントし、カウントした結果である集計結果を生成する。データ管理処理は、生成した集計結果をテキストマイニング処理に活用し、テキストマイニング処理の実行結果を出力する。このようにして、データ管理処理は、圧縮ファイルに基づくテキストマイニング処理を実行する前に、圧縮ファイルに対して伸長処理を実行するので、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間が長くなってしまう。
単語出現頻度テーブルを作成する技術であっても、圧縮データに基づいて単語出現頻度テーブルを作成する場合には、まず、圧縮データに対して伸長処理が行われてから、伸長データに対して字句解析、出現頻度の算出、単語出現頻度テーブルの作成が行われる。したがって、単語出現頻度テーブルを作成する処理を含むテキストマイニング処理の実行指示から実行結果を得るまでの処理時間が長くなってしまう。
1つの側面では、符号化データに基づいてテキストマイニング処理を行う場合に、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間を短縮することを目的とする。
第1の案では、コンピュータに、単語群のそれぞれに符号を割り当てた符号化辞書を用いた、テキストデータの符号化と、前記単語群のそれぞれについての前記テキストデータ内の出現頻度を示す頻度情報の生成を実行し、前記頻度情報を、符号化された符号化テキストデータと関連付けて記憶部に記憶する、処理を実行させる。
本発明の1実施態様によれば、符号化データに基づいてテキストマイニング処理を行う場合に、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間を短縮できる。
図1は、データ管理処理の一例を示す図である。 図2は、実施例に係るデータ管理処理の一例を示す図である。 図3は、実施例に係る情報処理装置の構成を示す機能ブロック図である。 図4は、実施例に係る単語辞書の一例を示す図である。 図5は、実施例に係るカウントマップの一例を示す図である。 図6は、実施例に係る符号化ファイルの一例を示す図である。 図7は、実施例に係る符号化部の処理手順を示すフローチャートである。 図8は、実施例に係るデータ処理部の処理手順を示すフローチャートである。 図9は、実施例に係るデータ管理処理の実装例を示す図である。 図10は、InputFormatの実装例を示す図である。 図11は、情報処理装置のハードウェアの構成の一例を示す図である。
以下に、本願の開示するデータ管理プログラム、情報処理装置およびデータ管理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図2は、本実施例に係るデータ管理処理の一例を示す図である。
図2に示すように、データ管理処理には、単語カウント部による処理と、符号割当部による処理と、符号化ファイル格納部とが含まれている。未符号化状態のファイルには、未符号化状態の複数の文書が含まれている。単語カウント部は、未符号化状態のファイルを、単語単位に分割する。例えば、未符号化状態のファイルに含まれる文字列が「He is able to ・・・」であるとする。すると、単語カウント部は、この文字列を、「He」「is」「able」「to」のように単語ごとに区切り、各単語に分割する。
単語カウント部は、分割した単語ごとに、出現回数をカウントする。単語カウント部は、単語ごとに出現回数をカウントした結果である頻度情報を生成する。すなわち、頻度情報は、単語ごとの頻度集計の結果であり、文書単位に生成される。単語カウント部は、生成した頻度情報を記憶部に格納する。なお、頻度情報のデータ構造に関する詳細は、後述する。
符号割当部は、単語辞書を用いて、分割した単語ごとに、それぞれの単語を符号に割り当てる。符号には、例えば、圧縮符号が挙げられるが、これに限定されない。単語辞書とは、一般的な国語辞典や教科書等を基にして文書中に出現する単語を品詞と符号とに対応付けた辞書のことをいう。単語辞書は、それぞれの単語に対応する品詞と符号とがあらかじめ登録されている。なお、単語辞書のデータ構造の一例は、後述する。
符号化ファイル格納部は、生成した頻度情報を、符号化された文字列データと関連付けて記憶部に格納する。すなわち、符号化ファイル格納部は、符号化された文字列データと頻度情報とを含む符号化状態のファイル(符号化ファイル)を生成し、生成した符号化ファイルを記憶部に格納する。なお、符号化ファイルのデータ構造に関する詳細は、後述する。
これにより、データ管理処理は、符号化ファイルに頻度情報を含むので、符号化ファイルに基づいてテキストマイニング処理を行う場合に、符号化ファイルを伸長しなくても、頻度情報を用いることで、テキストマイニング処理を実行することが可能になる。この結果、データ管理処理は、テキストマイニング処理の実行指示から実行結果を得るまでの処理時間を短縮することができる。
[情報処理装置の構成]
図3は、実施例に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、情報処理装置100は、符号化部110、データ処理部120および記憶部130を有する。
符号化部110は、図2に示した処理を実行する処理部である。符号化部110は、単語カウント部111、符号割当部112および符号化ファイル格納部113を有する。
データ処理部120は、データ処理、例えばテキストマイニング処理を実行する制御部である。
記憶部130は、例えばフラッシュメモリ(Flash Memory)やFRAM(登録商標)(Ferroelectric Random Access Memory)などの不揮発性の半導体メモリ素子などの記憶装置に対応する。記憶部130は、単語辞書131、カウントマップ132および符号化ファイル133を有する。
[単語辞書の一例]
図4は、実施例に係る単語辞書の一例を示す図である。単語辞書131は、図2で示した単語辞書に対応する。図4に示すように、単語辞書131は、基礎単語と、文字列長と、出現頻度と、符号長と、品詞と、圧縮符号とを含んで対応付ける。「基礎単語」は、単号辞書131に登録された単語である。例えば、「基礎単語」とは、辞典、テキスト群などからあらかじめ抽出された約19万語の単語である。なお、「基礎単語」として登録される単語数は、任意の語数でよい。
「文字列長」は、基礎単語の文字列の長さである。「出現頻度」は、頻度集計用のテキストファイル群において各基礎単語が出現した回数である。ここで、頻度集計用のテキストファイル群とは、データ処理を行うファイルとは別に用意された各基礎単語の出現頻度を集計するための1以上のテキストファイルである。ここでは、基礎単語「able」が、頻度集計用のテキストファイル群において「785」回出現したことを示す。
「品詞」は、各基礎単語の品詞である。ここでは、基礎単語「able」は、「名詞」であることを示す。
「圧縮符号」は、符号の一例である。ここでは、「圧縮符号」は、各基礎単語に割り当てられた圧縮符号である。「符号長」は、符号の長さである。一例として、出現頻度が高い基礎単語に対してより短い符号長を有する符号が割り当てられる。
また、単語辞書131は、基礎単語へのポインタを示すビットフィルタを有する。ビットフィルタは、2グラムと、ビットマップと、基礎単語とを対応付ける。「2グラム」は、各単語に含まれる連続する文字列である。例えば「able」は、「ab」、「bl」、「le」に対応する2グラムを有する。
「ビットマップ」は、2グラムの文字列に対応するビットマップを表す。例えば、「able」は、基礎単語へのポインタによって、2グラム「ab」のビットマップ「1_0_0_0_0」と、2グラム「bl」のビットマップ「0_1_0_0_0」と、2グラム「le」のビットマップ「0_0_1_0_0」とに対応付けられる。例えば、情報処理装置100は、未符号化状態のファイルから「able」を取得した場合に、2グラム「ab」のビットマップ「1_0_0_0_0」と、2グラム「bl」のビットマップ「0_1_0_0_0」と、2グラム「le」のビットマップ「0_0_1_0_0」を用いて基礎単語「able」にアクセスする。すなわち、情報処理装置100は、ビットフィルタと、未符号化状態のファイルから単語単位に分割された単語の文字列とを比較して、文字列がビットフィルタにヒットするか否かを判定する。情報処理装置100は、ヒットすれば、ポインタが指す基礎単語にアクセスする。
[カウントマップの一例]
図5は、実施例に係るカウントマップの一例を示す図である。カウントマップ132は、図2で示した頻度情報に対応する。図5に示すように、カウントマップ132は、レコードごとにレコードに含まれる単語の出現回数を記憶する。ここでいうレコードとは、ファイル中での論理的な区切りのことをいい、各レコードは、例えば、文書に対応する。出現回数は、4ビットで表わされる値であり、0回から15回までの数で表わされる。一例として、レコード1には、単語Aとして「0000」、単語Bとして「0000」、単語Cとして「0010」が表わされている。レコード2には、単語Aとして「0001」、単語Bとして「0001」、単語Cとして「0000」が表わされている。なお、出現回数は、4ビットで表わされる値と説明したが、これに限定されず、5ビットで表わされる値であっても良いし、3ビットで表わされる値であっても良い。すなわち、出現回数を表すビット数は、データ処理を行うファイルの内容に合わせて調整される値であれば良い。
[符号化ファイルの一例]
図6は、実施例に係る符号化ファイルの一例を示す図である。符号化ファイル133は、図2で示した符号化状態のファイルに対応する。図6に示すように、符号化ファイル133は、ヘッダ部と、符号化データと、トレーラ部とを有する。符号化データには、レコードごとに、各単語に割り当てられた符号が記憶される。トレーラ部には、カウントマップ132が記憶される。なお、符号化処理の際に用いられる情報が他にある場合には、トレーラ部には、この情報も記憶される。
ヘッダ部には、トレーラ部に格納されたカウントマップ132へのポインタが記憶される。情報処理装置100は、後述するデータ処理部120によるデータ処理時において、ヘッダ部のカウントマップ132へのポインタを利用し、カウントマップ132を参照できる。
図3に戻って、単語カウント部111は、符号化対象の文書データに対して、単語ごとに出現回数をカウントする。符号化対象の文書データには、未符号化状態の複数のレコードが含まれている。例えば、単語カウント部111は、符号化対象の文書データを字句解析する。すなわち、単語カウント部111は、符号化対象の文書データを単語単位に分割する。そして、単語カウント部111は、分割した単語ごとに、出現回数をカウントする。単語ごとの出現回数のカウントは、レコードごとに行われる。単語カウント部111は、レコードごと且つ単語ごとの出現回数を用いて、カウントマップ132を生成する。単語カウント部111は、カウントマップ132を記憶部130に格納する。
一例として、符号化対象の文書データに含まれる文字列が「He is able to ・・・」であるとする。すると、単語カウント部111は、この文字列を、「He」「is」「able」「to」のように単語ごとに区切り、各単語に分割する。そして、単語カウント部111は、分割した単語「He」「is」「able」「to」・・・ごとに、出現回数をカウントする。そして、文書データにレコード1とレコード2とがあるとする。すると、単語カウント部111は、レコード1に対する各単語「He」「is」「able」「to」・・・の出現回数を用いて、カウントマップ132を生成する。単語カウント部111は、レコード2に対する各単語「He」「is」「able」「to」・・・の出現回数を用いて、カウントマップ132を生成する。そして、単語カウント部111は、生成されたカウントマップ132を記憶部130に格納する。
符号割当部112は、分割された単語ごとに、単語辞書131に基づき、それぞれの単語を符号に割り当てる。例えば、符号割当部112は、単語カウント部111によって分割された単語を1つずつ選択する。符号割当部112は、単語辞書131から、選択した単語の圧縮符号を取得する。符号割当部112は、取得した圧縮符号を、選択した単語に割り当てる。符号割当部112は、分割された全ての単語に圧縮符号を割り当て、符号化対象の文書データにおける符号化データを生成する。
一例として、分割された単語が、「He」「is」「able」「to」であるとする。すると、符号割当部112は、単語辞書131から、「He」の圧縮符号を取得して、取得した圧縮符号を「He」に割り当てる。符号割当部112は、単語辞書131から、「is」の圧縮符号を取得して、取得した圧縮符号を「is」に割り当てる。符号割当部112は、単語辞書131から、「able」の圧縮符号を取得して、取得した圧縮符号を「able」に割り当てる。符号割当部112は、単語辞書131から、「to」の圧縮符号を取得して、取得した圧縮符号を「to」に割り当てる。
符号化ファイル格納部113は、カウントマップ132を、符号化データと関連付けて記憶部130に格納する。例えば、符号化ファイル格納部113は、符号化ファイル133に符号化データを設定し、符号化ファイル133のトレーラ部にカウントマップ132を設定する。そして、符号化ファイル格納部113は、トレーラ部に格納されたカウントマップ132へのポインタを符号化ファイル133のヘッダ部に設定する。そして、符号化ファイル格納部113は、符号化ファイル133を記憶部130に格納する。
一例として、符号化ファイル格納部113は、図6で示した符号化ファイル133の構成で、トレーラ部にカウントマップ132を設定し、カウントマップ132へのポインタをヘッダ部に設定する。そして、符号化ファイル格納部113は、符号化ファイル133を記憶部130に格納する。
データ処理部120は、符号化ファイル133のデータ処理を実行する。例えば、データ処理部120は、データ処理の実行指示を受け取ると、データ処理対象の符号化ファイル133のトレーラ部からカウントマップ132を取得する。データ処理部120は、カウントマップ132を用いてデータ処理を実行する。データ処理の一例として、構文解析やtf(Term Frequency)/idf(Inverse Document Frequency)の計算処理が挙げられる。tf/idfとは、情報検索で利用される、文書中の単語の重み付けの方法である。一例として、データ処理部120は、カウントマップ132を用いて、ある単語のそれぞれのレコード(文書)中における重みを算出する。そして、データ処理部120は、文書同士の類似度を算出する。文書同士の類似度の算出方法には、例えば、tf−idf Cos類似度推定法があるが、これに限定されない。
これにより、データ処理部120は、符号化ファイル133に基づいてデータ処理を行う場合に、符号化ファイル133を伸長しなくても、カウントマップ132を用いることで、データ処理を実行することが可能になる。この結果、データ処理部120は、データ処理の実行指示から実行結果を得るまでの処理時間を短縮することができる。
[符号化処理の処理手順]
図7は、実施例に係る符号化部の処理手順を示すフローチャートである。
図7に示すように、符号化部110は、符号化対象の文書データを入力する(ステップS11)。符号化対象の文書データには、複数の未符号化状態のレコードが含まれている。なお、符号化対象の文書データは、以降、入力データというものとする。
符号化部110は、入力データを字句解析する(ステップS12)。例えば、符号化部110は、入力データに含まれるレコードごとに、単語単位に分割する。
続いて、符号化部110は、レコードごとに、単語ごとの出現回数をカウントし、カウントマップ132を生成する(ステップS13)。例えば、符号化部110は、レコードを順番に選択する。符号化部110は、選択したレコードに含まれる単語の出現回数をカウントする。符号化部110は、全てのレコードについて、単語の出現回数をカウントする。符号化部110は、レコードごと且つ単語ごとの出現回数を用いて、カウントマップ132を生成する。符号化部110は、カウントマップ132を記憶部130に格納する。
続いて、符号化部110は、単語辞書131を用いて、入力データを符号化する(ステップS14)。例えば、符号化部110は、入力データの分割された単語を順番に選択する。符号化部110は、単語辞書131から、選択した単語の圧縮符号を取得する。符号化部110は、取得した圧縮符号を、選択した単語に割り当てる。符号化部110は、分割された全ての単語に圧縮符号を割り当て、入力データの符号化データを生成する。
続いて、符号化部110は、符号化済みの文書データ(符号化データ)およびカウントマップ132を含む符号化ファイル133を記憶部130に格納する(ステップS15)。例えば、符号化部110は、符号化ファイル133に符号化データを設定し、符号化ファイル133のトレーラ部にカウントマップ132を設定する。そして、符号化部110は、トレーラ部に格納されたカウントマップ132へのポインタを符号化ファイル133のヘッダ部に設定する。そして、符号化部110は、符号化ファイル133を記憶部130に格納する。
[データ処理の処理手順]
図8は、実施例に係るデータ処理部の処理手順を示すフローチャートである。
図8に示すように、データ処理部120は、データ処理の実行指示があったか否かを判定する(ステップS21)。データ処理の実行指示がなかったと判定した場合には(ステップS21;No)、データ処理部120は、データ処理の実行指示があるまで、判定処理を繰り返す。
一方、データ処理の実行指示があったと判定した場合には(ステップS21;Yes)、データ処理部120は、データ処理対象の符号化ファイル133を入力する(ステップS22)。データ処理部120は、符号化ファイル133に含まれるカウントマップ132を用いて、データ処理を実行する(ステップS23)。
データ処理部120は、データ処理の処理結果を出力する(ステップS24)。これにより、データ処理部120は、符号化ファイル133に基づいてデータ処理を行う場合に、符号化ファイル133を伸長しなくてもデータ処理を実行することで、データ処理の実行指示から実行結果を得るまでの処理時間を短縮することができる。
[データ管理処理の実装例]
次に、図9および図10を参照して、実施例に係るデータ管理処理の実装例について説明する。
図9は、実施例に係るデータ管理処理の実装例を示す図である。図9では、テキストマイニングにおけるデータ処理を、Hadoopに適用した場合の実装例である。Hadoopでは、HDFSにおいて、符号化部110によって圧縮(符号化)された符号化ファイル133が管理される。符号化ファイル133には、カウントマップ132が保持される。なお、HDFSは、本実施例に係る内容の圧縮ライブラリを使用したものである。
図9右図に示すように、データマイニングにおけるデータ処理は、構文解析やtf/idfの計算処理から実行される。例えば、データ処理部120に対応する「InputFormat」は、構文解析やtf/idfの計算処理の実行指示を受け取ると、データ処理対象の符号化ファイル133のトレーラ部からカウントマップ132を取得する。そして、「InputFormat」は、「Map」、「Shuffle&Sort」および「Reduce」のアプリケーションに対して、カウントマップ132を用いた構文解析やtf/idfの計算処理を実行させる。
なお、実施例に係るデータ管理処理をHadoopに実装した場合には、図9左図の字句解析と頻度集計は、不要となる。符号化部110は、未符号化状態のファイルを圧縮(符号化)する際に、頻度集計の結果である頻度情報(カウントマップ132)を生成し、符号化ファイル133に保持するからである。
また、実施例に係るデータ管理処理をHadoopに実装した場合には、図9中図の品詞解析や集計は、不要となる。単語辞書131は、基礎単語に品詞を対応付けているからである。加えて、符号化部110は、未符号化状態のファイルを圧縮(符号化)する際に、頻度集計の結果である頻度情報(カウントマップ132)を生成し、符号化ファイル133に保持するからである。
図10は、InputFormatの実装例を示す図である。図10に示すように、既存で実装されている「InputFormat」のインターフェースに「LZKInputFormat」が追加される。
従来のデータ管理処理では、テキストマイニングにおける字句解析と頻度集計を実行する際に、圧縮(符号化)された符号化ファイルを伸長し、伸長したデータを用いて字句解析と頻度集計を実行する。そして、データ管理処理では、実行後に伸長したデータを字句解析しながら圧縮する。また、データ管理処理では、テキストマイニングにおける品詞解析や集計を実行する際に、圧縮された符号化ファイルを伸長し、伸長したデータを用いて品詞解析や集計を実行する。そして、データ管理処理では、実行後に伸長したデータを字句解析しながら圧縮する。また、データ管理処理では、テキストマイニングにおける構文解析やtf/idfを実行する際に、圧縮された符号化ファイルを伸長し、伸長したデータを用いてさらに頻度集計をしたうえで構文解析やtf/idfを実行する。そして、データ管理処理では、実行後に伸長したデータを字句解析しながら圧縮する。このようにして、従来のデータ管理処理では、同じ処理(例えば、圧縮処理、伸長処理、字句解析、頻度集計など)を何回も繰り返すため、テキストマイニングにおけるデータ処理を効率的に実行できない。
これに対して、実施例に係るデータ管理処理では、未符号化状態のファイルの符号化の段階で頻度情報を生成し、生成した頻度情報を符号化ファイル133に保持するので、テキストマイニングにおけるデータ処理を効率的に実行できる。この結果、実施例に係るデータ管理処理では、処理を実行するコンピュータに関して、同じ結果を得る複数の処理の処理量を少なくすることができる。加えて、実施例に係るデータ管理処理では、データ処理の実行指示から実行結果を得るまでの処理時間を短縮することができる。
また、実施例に係るデータ管理処理は、集計情報を符号化データと一元化して格納するので、未符号化状態のデータ(平文のデータ)が不要となり、格納容量を小さくすることができる。
[実施例の効果]
このようにして、上記実施例では、情報処理装置100は、単語群のそれぞれに符号を割り当てた単語辞書131を用いた、テキストデータの符号化と、単語群のそれぞれについてのテキストデータ内の出現頻度を示す頻度情報の生成を実行する。情報処理装置100は、生成された頻度情報を、符号化された符号化テキストデータと関連付けて記憶部130に記憶する。かかる構成によれば、情報処理装置100は、符号化された符号化テキストデータを伸長せずに、頻度情報を出力することができ、テキストマイニングの処理時間を短縮できる。
また、上記実施例では、情報処理装置100は、符号化された符号化テキストデータに対して単語ごとの出現頻度の解析指示を受け付けた場合に、符号化された符号化テキストデータに関連付けられた頻度情報を出力する。かかる構成によれば、情報処理装置100は、出力される頻度情報を用いることで、単語ごとの出現頻度の解析処理の処理時間を短縮できる。すなわち、情報処理装置100は、符号化された符号化テキストデータに対して単語ごとの出現頻度の解析処理を行う場合に、当該解析処理の実行指示から実行結果を得るまでの処理時間を短縮できる。
また、上記実施例では、情報処理装置100は、単語群のそれぞれについてテキストデータを所定の単位で区切った単位で頻度情報を生成する。かかる構成によれば、情報処理装置100は、レコード(文書)単位で頻度情報を生成することで、生成された頻度情報をテキストマイニングで利用することができる。
[情報処理装置のハードウェア構成]
図11は、情報処理装置のハードウェア構成の一例を示す図である。図11に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータ入力を受け付ける入力装置502と、モニタ503とを有する。また、コンピュータ500は、記憶媒体からプログラムなどを読み取る媒体読取装置504と、他の装置と接続するためのインターフェース装置505と、他の装置と無線により接続するための無線通信装置506とを有する。また、コンピュータ500は、各種情報を一時記憶するRAM(Random Access Memory)507と、ハードディスク装置508とを有する。また、各装置501〜508は、バス509に接続される。
ハードディスク装置508には、図3に示した符号化部110およびデータ処理部120と同様の機能を有するデータ管理プログラムが記憶される。また、ハードディスク装置508には、データ管理プログラムを実現するための各種データが記憶される。各種データには、図3に示した記憶部130内のデータが含まれる。
CPU501は、ハードディスク装置508に記憶された各プログラムを読み出して、RAM507に展開して実行することで、各種の処理を行う。これらのプログラムは、コンピュータ500を図3に示した各機能部として機能させることができる。
なお、上記の文書処理プログラムは、必ずしもハードディスク装置508に記憶されている必要はない。例えば、コンピュータ500が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ500が読み出して実行するようにしてもよい。コンピュータ500が読み取り可能な記憶媒体は、例えば、CD−ROMやDVDディスク、USB(Universal Serial Bus)メモリなどの可搬型記録媒体、フラッシュメモリなどの半導体メモリ、ハードディスクドライブなどが対応する。また、公衆回線、インターネット、LAN(Local Area Network)などに接続された装置にこのプログラムを記憶させておき、コンピュータ500がこれらからプログラムを読み出して実行するようにしても良い。
100 情報処理装置
110 符号化部
111 単語カウント部
112 符号割当部
113 符号化ファイル格納部
120 データ処理部
130 記憶部
131 単語辞書
132 カウントマップ
133 符号化ファイル

Claims (5)

  1. コンピュータに、
    単語群のそれぞれに符号を割り当てた符号化辞書を用いた、テキストデータの符号化と、前記単語群のそれぞれについての前記テキストデータ内の出現頻度を示す頻度情報の生成を実行し、
    前記頻度情報を、符号化された符号化テキストデータと関連付けて記憶部に記憶する
    処理を実行させることを特徴とするデータ管理プログラム。
  2. 前記符号化テキストデータに対して単語ごとの出現頻度の解析指示を受け付けた場合に、前記符号化テキストデータに関連付けられた前記頻度情報を出力する
    処理を実行させることを特徴とする請求項1に記載のデータ管理プログラム。
  3. 前記生成する処理は、前記単語群のそれぞれについて前記テキストデータを所定の単位で区切った単位で前記頻度情報を生成する
    処理を実行させることを特徴とする請求項1または請求項2に記載のデータ管理プログラム。
  4. 単語群のそれぞれに符号を割り当てた符号化辞書を用いた、テキストデータの符号化を行う符号化部と、
    前記単語群のそれぞれについての前記テキストデータ内の出現頻度を示す頻度情報の生成を実行する生成部と、
    前記頻度情報を、符号化された符号化テキストデータと関連付けて記憶部に格納する格納部と、
    を有することを特徴とする情報処理装置。
  5. コンピュータが、
    単語群のそれぞれに符号を割り当てた符号化辞書を用いた、テキストデータの符号化と、前記単語群のそれぞれについての前記テキストデータ内の出現頻度を示す頻度情報の生成を実行し、
    前記頻度情報を、符号化された符号化テキストデータと関連付けて記憶部に記憶する
    各処理を実行することを特徴とするデータ管理方法。
JP2015051797A 2015-03-16 2015-03-16 データ管理プログラム、情報処理装置およびデータ管理方法 Pending JP2016170750A (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2015051797A JP2016170750A (ja) 2015-03-16 2015-03-16 データ管理プログラム、情報処理装置およびデータ管理方法
KR1020160023575A KR20160111327A (ko) 2015-03-16 2016-02-26 정보 처리 장치 및 데이터 관리 방법
EP16157605.3A EP3070615A1 (en) 2015-03-16 2016-02-26 Information processing apparatus, and data management method
US15/054,494 US10380240B2 (en) 2015-03-16 2016-02-26 Apparatus and method for data compression extension
CN201610108617.4A CN105988980A (zh) 2015-03-16 2016-02-26 信息处理设备和数据管理方法
AU2016201253A AU2016201253A1 (en) 2015-03-16 2016-02-26 Information processing apparatus, and data management method
AU2017248412A AU2017248412B2 (en) 2015-03-16 2017-10-16 Information processing apparatus, and data management method
KR1020180009390A KR101842420B1 (ko) 2015-03-16 2018-01-25 정보 처리 장치 및 데이터 관리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015051797A JP2016170750A (ja) 2015-03-16 2015-03-16 データ管理プログラム、情報処理装置およびデータ管理方法

Publications (1)

Publication Number Publication Date
JP2016170750A true JP2016170750A (ja) 2016-09-23

Family

ID=55442724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015051797A Pending JP2016170750A (ja) 2015-03-16 2015-03-16 データ管理プログラム、情報処理装置およびデータ管理方法

Country Status (6)

Country Link
US (1) US10380240B2 (ja)
EP (1) EP3070615A1 (ja)
JP (1) JP2016170750A (ja)
KR (2) KR20160111327A (ja)
CN (1) CN105988980A (ja)
AU (2) AU2016201253A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037309B1 (en) * 2017-05-02 2018-07-31 International Business Machines Corporation Encoded text data management
CN107247695A (zh) * 2017-05-31 2017-10-13 深圳市长亮科技股份有限公司 编码规则生成方法、***和存储设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2012142024A (ja) * 2007-05-24 2012-07-26 Fujitsu Ltd 情報検索プログラム、該プログラムを記録した記録媒体、および情報検索方法
JP2013134612A (ja) * 2011-12-26 2013-07-08 Hitachi Systems Ltd 注目単語分析方法および注目単語分析システム
JP2015026350A (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5254990A (en) * 1990-02-26 1993-10-19 Fujitsu Limited Method and apparatus for compression and decompression of data
JPH05324730A (ja) 1992-05-27 1993-12-07 Hitachi Ltd 文書情報検索装置
US5590317A (en) 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
US5635932A (en) * 1994-10-17 1997-06-03 Fujitsu Limited Lempel-ziv compression with expulsion of dictionary buffer matches
JPH08180067A (ja) * 1994-12-26 1996-07-12 Nec Corp データベースレコード圧縮システム
JP3277792B2 (ja) 1996-01-31 2002-04-22 株式会社日立製作所 データ圧縮方法および装置
CN1148657C (zh) * 1997-10-21 2004-05-05 富士通株式会社 文件处理方法和数据处理装置
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
JP3337633B2 (ja) * 1997-12-03 2002-10-21 富士通株式会社 データ圧縮方法及びデータ復元方法並びにデータ圧縮プログラム又はデータ復元プログラムを記録したコンピュータ読み取り可能な記録媒体
US6427149B1 (en) * 1999-09-09 2002-07-30 Herman Rodriguez Remote access of archived compressed data files
AU3274301A (en) * 2000-01-05 2001-07-16 Realnetworks, Inc. Systems and methods for multiple-file data compression
GB0016974D0 (en) * 2000-07-12 2000-08-30 Univ Salford The Document retrieval system
JP2002258894A (ja) * 2001-03-02 2002-09-11 Fujitsu Ltd 音声データ圧縮・解凍装置及び方法
US6993534B2 (en) 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
KR20060095565A (ko) * 2003-10-21 2006-08-31 가부시키가이샤 아이.피.비. 조사 대상 문서의 문서 특징 분석 장치
CN1856787A (zh) * 2003-10-21 2006-11-01 株式会社Ipb 调查对象文件的文件特征分析单元
JP2005250980A (ja) 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
US7424482B2 (en) * 2004-04-26 2008-09-09 Storwize Inc. Method and system for compression of data for block mode access storage
US20090132466A1 (en) * 2004-10-13 2009-05-21 Jp Morgan Chase Bank System and method for archiving data
US7478386B2 (en) * 2005-05-03 2009-01-13 International Business Machines Corporation Resource-conservative installation of compressed archives
JP4456554B2 (ja) 2005-10-31 2010-04-28 富士通株式会社 データ圧縮方法及び圧縮データ送信方法
US20080243482A1 (en) * 2007-03-28 2008-10-02 Siemens Aktiengesellschaft Method for performing effective drill-down operations in text corpus visualization and exploration using language model approaches for key phrase weighting
WO2008142799A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置
JP5391583B2 (ja) * 2008-05-29 2014-01-15 富士通株式会社 検索装置、生成装置、プログラム、検索方法および生成方法
JP5782214B2 (ja) * 2008-05-30 2015-09-24 富士通株式会社 情報検索プログラム、情報検索装置および情報検索方法
US20110213655A1 (en) * 2009-01-24 2011-09-01 Kontera Technologies, Inc. Hybrid contextual advertising and related content analysis and display techniques
JP5418218B2 (ja) * 2009-12-25 2014-02-19 富士通株式会社 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
US8595234B2 (en) * 2010-05-17 2013-11-26 Wal-Mart Stores, Inc. Processing data feeds
US8880391B2 (en) 2010-12-17 2014-11-04 Rakuten, Inc. Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
EP2706466A4 (en) * 2011-05-02 2015-06-17 Fujitsu Ltd EXTRACTION PROCESS, INFORMATION PROCESSING, EXTRACTION PROGRAM, INFORMATION PROCESSING, EXTRACTION DEVICE AND INFORMATION PROCESSING DEVICE
EP2775406A4 (en) * 2011-11-04 2015-07-08 Fujitsu Ltd MATCHING CONTROL PROGRAM, MATCHING CONTROL DEVICE, AND MATCHING CONTROL METHOD
US9298825B2 (en) * 2011-11-17 2016-03-29 Microsoft Technology Licensing, Llc Tagging entities with descriptive phrases
JP5831298B2 (ja) * 2012-03-06 2015-12-09 富士通株式会社 プログラム、情報処理装置およびインデックス生成方法
US9660666B1 (en) * 2014-12-22 2017-05-23 EMC IP Holding Company LLC Content-aware lossless compression and decompression of floating point data
US10140033B2 (en) * 2015-06-15 2018-11-27 Xitore, Inc. Apparatus, system, and method for searching compressed data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法
JP2012142024A (ja) * 2007-05-24 2012-07-26 Fujitsu Ltd 情報検索プログラム、該プログラムを記録した記録媒体、および情報検索方法
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2013134612A (ja) * 2011-12-26 2013-07-08 Hitachi Systems Ltd 注目単語分析方法および注目単語分析システム
JP2015026350A (ja) * 2013-07-29 2015-02-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
山本 努: "MapReduceを活用したコンテンツベースレコメンデーションのための分散処理システム", 第72回(平成22年)全国大会講演論文集(3) ネットワーク セキュリティ, JPN6020003702, 8 March 2010 (2010-03-08), pages 397 - 3, ISSN: 0004209991 *
田中 慎平: "Hadoopによる分布類似度計算の分散処理", 言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM], JPN6020003703, 13 March 2012 (2012-03-13), JP, pages 1212 - 1215, ISSN: 0004209992 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法
CN107292396B (zh) * 2017-08-14 2020-05-05 南宁学院 一种水电设备报修消息处理方法

Also Published As

Publication number Publication date
KR101842420B1 (ko) 2018-03-26
KR20160111327A (ko) 2016-09-26
EP3070615A1 (en) 2016-09-21
KR20180014124A (ko) 2018-02-07
AU2017248412A1 (en) 2017-11-02
CN105988980A (zh) 2016-10-05
AU2017248412B2 (en) 2019-02-21
US10380240B2 (en) 2019-08-13
US20160275072A1 (en) 2016-09-22
AU2016201253A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
KR100894002B1 (ko) 선택적 압축과 복원 및 압축 데이터에 대한 데이터 포맷을위한 장치 및 방법
EP3195481B1 (en) Adaptive rate compression hash processing device
US20170099064A1 (en) Non-transitory computer-readable recording medium, encoding method, encoding device, decoding method, and decoding device
JP6467937B2 (ja) 文書処理プログラム、情報処理装置および文書処理方法
KR101842420B1 (ko) 정보 처리 장치 및 데이터 관리 방법
US10324963B2 (en) Index creating device, index creating method, search device, search method, and computer-readable recording medium
JP6613669B2 (ja) 圧縮プログラム、圧縮方法、情報処理装置、置換プログラムおよび置換方法
US9479195B2 (en) Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device
US20150248432A1 (en) Method and system
AU2019250125B2 (en) Information processing apparatus, information processing method, and information processing program
JP2021145281A (ja) 圧縮装置、伸張装置及び方法
JP6645013B2 (ja) 符号化プログラム、符号化方法、符号化装置および伸長方法
JPWO2014030189A1 (ja) 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
Souley et al. A comparative analysis of data compression techniques
JP6693549B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US10447295B2 (en) Coding method, coding device, decoding method, and decoding device
US20180145701A1 (en) Sonic Boom: System For Reducing The Digital Footprint Of Data Streams Through Lossless Scalable Binary Substitution
WO2024066753A1 (zh) 压缩数据的方法和相关装置
Pannirselvam et al. A Comparative Analysis on Different Techniques in Text Compression
JP2005175926A (ja) 復号装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200212