JP2009199461A - Personal information file determination system - Google Patents

Personal information file determination system Download PDF

Info

Publication number
JP2009199461A
JP2009199461A JP2008042017A JP2008042017A JP2009199461A JP 2009199461 A JP2009199461 A JP 2009199461A JP 2008042017 A JP2008042017 A JP 2008042017A JP 2008042017 A JP2008042017 A JP 2008042017A JP 2009199461 A JP2009199461 A JP 2009199461A
Authority
JP
Japan
Prior art keywords
personal information
file
information
determined
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008042017A
Other languages
Japanese (ja)
Other versions
JP4272690B1 (en
Inventor
Minoru Wani
稔 和仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SKY Co Ltd
Original Assignee
SKY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SKY Co Ltd filed Critical SKY Co Ltd
Priority to JP2008042017A priority Critical patent/JP4272690B1/en
Application granted granted Critical
Publication of JP4272690B1 publication Critical patent/JP4272690B1/en
Publication of JP2009199461A publication Critical patent/JP2009199461A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a personal information file determination system for determining whether a file managed by a computer terminal is a personal information file or not. <P>SOLUTION: The personal information file determination system includes a personal information file determination part for determining whether a file to be processed is a personal information file or not by extracting information included in the file to be processed, determining whether the extracted information is personal information or not and determining whether each piece of information determined as the personal information has regularity or not. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、コンピュータ端末で管理しているファイルについて、そのファイルが個人情報ファイルであるかどうかを判定する個人情報ファイル判定システムに関する。
The present invention relates to a personal information file determination system that determines whether a file managed by a computer terminal is a personal information file.

近年、企業などの組織で管理する個人情報の漏洩が相次いだことにより、個人情報を含むファイルの徹底管理が求められるようになっている。しかし個人情報を大量に含むファイルは非常に多数あることから、すべてのファイルをチェックして、個人情報を大量に含むファイルを特定するのは容易ではない。   In recent years, due to the continuous leakage of personal information managed by organizations such as corporations, thorough management of files containing personal information has been required. However, since there are a large number of files containing a large amount of personal information, it is not easy to check all the files and identify a file containing a large amount of personal information.

そこで下記特許文献1乃至特許文献4に記載のように、記憶しているファイルの内容を検索することで、自動的に個人情報を含むファイルであるかを判定し、それを特定するシステムが存在する。   Therefore, as described in Patent Document 1 to Patent Document 4 below, there is a system for automatically determining whether a file includes personal information by searching the contents of a stored file and specifying it. To do.

特開2006−178603号公報JP 2006-178603 A 特開2007−200276号公報JP 2007-200206 A 特開2007−241580号公報JP 2007-241580 A 特許第3705439号公報Japanese Patent No. 3705439

上記の各特許文献に記載のシステムを利用することにより、個人情報を含むファイルを特定することは出来る。しかし企業などの組織で使用するファイルの場合、そのほとんどのファイルに何らかの個人情報を含んでいることが通常である。例えば電子メールであれば、電子メールの本文に署名として発信者の氏名、勤務先の住所、電話番号、電子メールアドレスなどが含まれていたり、書類などのファイルであっても、氏名や住所などの個人情報が含まれていることがほとんどである。   By using the system described in each of the above patent documents, a file containing personal information can be specified. However, in the case of a file used in an organization such as a company, most of the files usually contain some personal information. For example, in the case of an e-mail, the name, address, etc. of the sender's name, work address, telephone number, e-mail address, etc. are included in the body of the e-mail, even if the file is a document, etc. Most of the personal information is included.

もちろんこれらの個人情報は漏洩しても良いということではないが、各特許文献に記載のシステムを用いた場合では、単に、ファイルの内容に、「名前」、「住所」、「電話番号」などの情報が含まれているかを判定しているだけであるので、コンピュータ端末で記憶しているファイルのほとんどが個人情報ファイルであるとして特定される可能性が極めて高い。そのため、ほとんどのファイルに対して、個人情報ファイルであることを示すフラグが付されたり、セキュリティ設定が行われてしまう可能性がある。   Of course, this personal information may not be leaked, but in the case of using the system described in each patent document, simply include “name”, “address”, “phone number”, etc. in the file contents. Therefore, it is highly likely that most of the files stored in the computer terminal are specified as personal information files. For this reason, there is a possibility that a flag indicating that the file is a personal information file is attached to most files, or security settings are performed.

しかし企業などの組織においてもっとも重要なことは、名簿や顧客情報のように、個人情報を大量に含むファイルが漏洩することであり、それらのファイルについては徹底的に機密扱いとされなければならない。   However, the most important thing in an organization such as a company is that a file containing a large amount of personal information such as a name list or customer information is leaked, and such a file must be kept confidential.

ところが上記各特許文献のシステムを用いたとしても、個人情報を含むファイルであるかどうかを特定することは出来ても、そのファイルが本当に機密扱いとされなければならない個人情報を含むファイル(名簿や顧客情報などのファイル)であるか、を特定することは出来ず、単に文書の一部に個人情報を含んでいるファイルと、大量に個人情報を含むファイルとの切り分けをすることが出来ていない。   However, even if the systems of the above patent documents are used, it is possible to specify whether or not the file contains personal information, but the file containing personal information that must be truly classified (such as a name list or It is not possible to identify whether the file contains personal information in a part of the document or a file containing a large amount of personal information. .

従って、特定したファイルに個人情報が含まれていることはわかっても、名簿や顧客情報のファイルなどの、個人情報を大量に含むファイルであるかどうかは、管理者が別途、ファイルを開いたり、ファイル名などから推測することで、特定しなければならない。しかしこのような作業は、上述のように、従来の特許文献のシステムでは、コンピュータ端末で記憶するファイルのほとんどのファイルが個人情報を含むファイルとして判定されてしまうので、実際にはその労力は膨大となってしまう。   Therefore, even if it is known that personal information is included in the specified file, whether the file contains a large amount of personal information, such as a directory or customer information file, can be opened separately by the administrator. Must be identified by guessing from the file name etc. However, as described above, in the conventional patent document system, such work is determined as a file containing personal information because most of the files stored in the computer terminal are actually labor intensive. End up.

そこで、名簿や顧客情報などのように、個人情報を大量に含むファイルだけを、コンピュータ端末に記憶するファイルから特定することで、真に保護されるべき個人情報ファイルを特定することが出来るシステムが求められている。   Therefore, a system that can identify a personal information file that should be truly protected by identifying only files containing a large amount of personal information, such as a name list and customer information, from files stored in a computer terminal. It has been demanded.

本発明者は上記課題に鑑み、個人情報を大量に含むファイルだけをコンピュータ端末に記憶するファイルから特定することが可能な個人情報ファイル判定システムを発明した。なお本願明細書において、個人情報ファイルとは、そのファイルの内容のほとんど(一定割合以上、例えば90%以上、95%以上など)が個人情報であるファイルのことであり、またその個人情報が一定の規則性(例えば周期性)をもって含まれているファイル、例えば名簿ファイル、顧客情報ファイルなどを示す。   In view of the above problems, the present inventors have invented a personal information file determination system that can specify only files containing a large amount of personal information from files stored in a computer terminal. In the present specification, a personal information file is a file in which most of the content of the file (a certain percentage or more, for example, 90% or more, 95% or more, etc.) is personal information, and the personal information is constant. A file included with regularity (for example, periodicity), such as a name list file and a customer information file.

第1の発明は、ファイルが個人情報ファイルであるかを判定する個人情報ファイル判定システムであって、前記個人情報ファイル判定システムは、処理対象となったファイルからそこに含まれている情報を抽出し、抽出した情報が個人情報であるかを判定し、前記個人情報であると判定した各情報について規則性があるか否かを判定することで、前記処理対象となったファイルが個人情報ファイルであるかを判定する個人情報ファイル判定部と、を有する個人情報ファイル判定システムである。   1st invention is the personal information file determination system which determines whether a file is a personal information file, Comprising: The said personal information file determination system extracts the information contained there from the file used as the process object And determining whether or not the extracted information is personal information, and determining whether or not each piece of information determined to be personal information has regularity, whereby the file to be processed is a personal information file And a personal information file determination unit that determines whether the personal information file is a personal information file determination unit.

上述のように、企業などで特に保護されるべきは個人情報を大量に含むファイル(個人情報ファイル)であるが、従来のシステムでは、個人情報を少しでも含んでいるだけでそのファイルを特定してしまう問題点があり、実際に使用する際には不便であった。そこで本発明のように、個人情報を大量に含むファイルでは、個人情報が規則性を持って配列されている点に着目し、単に個人情報を含むファイルというだけではなく、規則性に則って個人情報を配列しているかを判定することで、個人情報ファイルかどうかを的確に判定することが可能となる。これによって、企業などでもっとも保護されるべき個人情報ファイルを容易に特定でき、また実際に使用する際の利便性も向上する。   As mentioned above, files that contain a large amount of personal information (personal information files) that should be particularly protected by companies, etc., are identified in the conventional system by only including a little personal information. There was a problem that it was, and it was inconvenient when actually used. Therefore, in the case of a file containing a large amount of personal information as in the present invention, paying attention to the fact that the personal information is arranged with regularity, it is not just a file containing personal information, but an individual according to regularity. By determining whether the information is arranged, it is possible to accurately determine whether it is a personal information file. This makes it possible to easily identify the personal information file that should be most protected by a company or the like, and to improve the convenience of actual use.

また上述の発明は、以下のように構成することも出来る。すなわち、ファイルが個人情報ファイルであるかを判定する個人情報ファイル判定システムであって、前記個人情報ファイル判定システムは、処理対象となったファイルから文字情報を抽出する文字情報抽出部と、前記抽出した各文字情報について、予め定められた配列条件を備えるかを判定することにより前記抽出した文字情報のうち、個人情報である文字情報を判定する個人情報判定部と、前記個人情報であると判定した各文字情報の配列が規則性を有するかを判定する規則性判定部と、前記規則性判定部において前記個人情報であると判定した各文字情報の配列が規則性を有すると判定した場合に、前記処理対象となったファイルを個人情報ファイルとして判定するファイル判定部と、前記判定結果に基づいて制御処理を実行する制御処理部と、を有する個人情報ファイル判定システムのように構成しても良い。   The above-described invention can also be configured as follows. That is, a personal information file determination system that determines whether a file is a personal information file, the personal information file determination system including a character information extraction unit that extracts character information from a file to be processed, and the extraction For each piece of character information, a personal information determination unit that determines character information that is personal information out of the extracted character information by determining whether a predetermined arrangement condition is provided, and determination that the character information is the personal information When determining that the arrangement of each character information has regularity, and when determining that the arrangement of each character information determined to be the personal information in the regularity determination unit has regularity A file determination unit that determines the file to be processed as a personal information file, and a control that executes a control process based on the determination result A processing section may be configured as the personal information file determination system with.

本発明のように構成しても同様の技術的効果を得られる。   The same technical effect can be obtained even when configured as in the present invention.

上記発明において、前記規則性判定部は、前記個人情報であると判定した各文字情報の配列について、行方向及び/または列方向に対して、各文字情報がどの項目の個人情報に該当するかを判定し、行方向及び/または列方向に、同一種類の項目の個人情報が一定割合以上含まれていると判定した場合に、規則性を有すると判定する、個人情報ファイル判定システムのように構成しても良い。   In the above invention, for the arrangement of each piece of character information that is determined to be the personal information, the regularity determination unit corresponds to which item of personal information each character information corresponds to the row direction and / or the column direction. As in the personal information file determination system that determines that there is regularity when it is determined that the personal information of the same type of item is included in a certain percentage or more in the row direction and / or the column direction. It may be configured.

一般的に個人情報ファイルは表形式のファイルで構成されていることが多い。そのため、行方向、列方向に同一種類の項目の個人情報が配置されているかを判定することで、規則性の判定が可能となる。   Generally, personal information files are often composed of tabular files. Therefore, regularity can be determined by determining whether or not personal information of the same type of item is arranged in the row direction and the column direction.

上記発明において、前記規則性判定部は、前記個人情報であると判定した各文字情報の配列について、所定の記憶領域に予め記憶されている、規則性のパターン辞書における個人情報の項目の配列パターンと比較し、前記各文字情報の個人情報の項目の配列と前記パターン辞書の項目の配列パターンとの一致率を算出し、前記一致率が最も高く、且つ前記一致率が所定値以下または所定値未満ではない場合には、前記最も高い一致率の配列パターンの規則性を有する、と判定する、個人情報ファイル判定システムのように構成しても良い。   In the above invention, the regularity determination unit stores an array pattern of items of personal information in a regularity pattern dictionary stored in advance in a predetermined storage area for each character information array determined to be the personal information. And the matching rate between the array of personal information items of each character information and the pattern pattern of the pattern dictionary items, the matching rate is the highest, and the matching rate is a predetermined value or less or a predetermined value If not, it may be configured as a personal information file determination system that determines that the arrangement pattern having the highest matching rate has regularity.

個人情報の項目の規則性のパターン辞書を備えておき、処理対象となっているファイルにおける個人情報として判定した文字情報が、上記パターン辞書の配列パターンと一致するかを判定することで、規則性の判定を行っても良い。   A regularity pattern dictionary of personal information items is provided, and regularity is determined by determining whether the character information determined as personal information in the file to be processed matches the array pattern of the pattern dictionary. It may be determined.

上記発明において、前記規則性判定部は、前記個人情報であると判定した各文字情報について第1のデータ列とし、前記第1のデータ列に対して、予め定められた項目を基準項目として設定するとともに周期性の仮サイズを設定し、前記第1のデータ列を前記基準項目までシフトし、前記第1のデータ列の前記基準項目から前記周期性の仮サイズだけシフトさせた第2のデータ列を設定し、前記第1のデータ列の先頭項目の属性情報と前記第2のデータ列の先頭項目の属性情報とが一致するかを判定し、一致しない場合には、前記第2のデータ列を一つシフトし、一致する場合には、前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報とが一致するかを順に判定し、一致しない場合には、前記第2のデータ列を一つシフトし、一致する場合には、前記周期性の仮サイズと前記第2のデータ列のシフト回数とを合計することにより周期性のサイズを算出し、前記算出した周期性のサイズの規則性を有すると判定する、個人情報ファイル判定システムのように構成しても良い。   In the above invention, the regularity determination unit sets a first data string for each character information determined to be the personal information, and sets a predetermined item as a reference item for the first data string. In addition, a temporary data size of periodicity is set, the first data string is shifted to the reference item, and the second data is shifted from the reference item of the first data string by the temporary data size of the periodicity. A column is set, and it is determined whether the attribute information of the first item of the first data string matches the attribute information of the first item of the second data string. If they do not match, the second data If the columns are shifted by one and match, it is determined in order whether the attribute information of the item of the first data column and the attribute information of the item of the second data column match. , Shift the second data string by one If they match, the periodicity size is calculated by summing the temporary size of the periodicity and the number of shifts of the second data string, and the calculated periodicity size has regularity. Then, it may be configured as a personal information file determination system for determining.

規則性の一つであるデータ配列の周期性を判定する場合には、本発明のように処理することで処理可能である。   When determining the periodicity of the data array, which is one of the regularities, it can be processed by processing as in the present invention.

上記発明において、前記規則性判定部は、前記個人情報であると判定した各文字情報について所定位置で区切ることにより、第1のデータ列と第2のデータ列とを設定し、前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報との一致率を算出し、前記算出した一致率と所定値とを比較し、前記算出した一致率が所定値以下または所定値未満であれば、前記第1のデータ列または第2のデータ列を一つシフトして再度、前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報との一致率を算出し、前記算出した一致率が所定値以上または所定値より大きければ、前記個人情報であると判定した各文字情報のデータ列について規則性を有すると判定する、個人情報ファイル判定システムのように構成しても良い。   In the above invention, the regularity determination unit sets the first data string and the second data string by dividing each character information determined to be the personal information at a predetermined position, and the first data string is set. A match rate between the attribute information of the item of the data string and the attribute information of the item of the second data string is calculated, the calculated match rate is compared with a predetermined value, and the calculated match rate is equal to or lower than the predetermined value or a predetermined value If it is less than the value, the first data string or the second data string is shifted by one, and the attribute information of the item of the first data string and the attribute information of the item of the second data string are again A personal information file determination system that calculates a match rate and determines that the data string of each character information determined to be personal information has regularity if the calculated match rate is equal to or greater than a predetermined value or greater than a predetermined value Even if configured as There.

規則性の一つであるデータ配列の周期性を判定するには、本発明のように処理することでも処理可能である。本発明の周期性の判定方法により、誤認識があった場合にも周期性を判定することが可能となる。   In order to determine the periodicity of the data array, which is one of regularity, processing can be performed by processing as in the present invention. According to the periodicity determination method of the present invention, it is possible to determine periodicity even when there is an erroneous recognition.

上記発明において、前記規則性判定部は、前記個人情報であると判定した各文字情報のデータ列のうち、所定範囲のデータの項目を抽出し、前記抽出したデータの項目と、前記データ列の項目とを逐次比較し、一致した回数が所定回数以上または所定回数より多ければ、前記個人情報であると判定した各文字情報のデータ列について規則性を有すると判定する、個人情報ファイル判定システムのように構成しても良い。   In the above invention, the regularity determining unit extracts a data item in a predetermined range from the data string of each character information determined to be the personal information, the extracted data item, and the data string A personal information file determination system that sequentially compares items and determines that the data string of each character information determined to be personal information has regularity if the number of matches is greater than or equal to a predetermined number or more than a predetermined number You may comprise as follows.

本発明のように構成しても規則性があるか否かを判定することが可能となる。   It is possible to determine whether or not there is regularity even when configured as in the present invention.

上記発明における個人情報ファイル判定システムは、本発明の個人情報ファイル判定プログラムをコンピュータ端末に読み込み、実行させることで実現できる。すなわち、コンピュータ端末を、所定の記憶領域から処理対象となったファイルを抽出し、前記抽出したファイルに含まれている情報を抽出し、抽出した情報が個人情報であるかを判定し、前記個人情報であると判定した各情報について規則性があるか否かを判定することで、前記処理対象となったファイルが個人情報ファイルであるかを判定する個人情報ファイル判定部、前記判定結果に基づいて制御処理を実行する制御処理部、として機能させる個人情報ファイル判定プログラムのように構成することが出来る。   The personal information file determination system in the above invention can be realized by reading and executing the personal information file determination program of the present invention in a computer terminal. That is, the computer terminal extracts a file to be processed from a predetermined storage area, extracts information contained in the extracted file, determines whether the extracted information is personal information, and A personal information file determination unit that determines whether the file to be processed is a personal information file by determining whether or not each information determined to be information has regularity, based on the determination result Thus, it can be configured as a personal information file determination program that functions as a control processing unit that executes control processing.

本発明の個人情報ファイル判定システムによって、個人情報を大量に含むファイルだけを、コンピュータ端末に記憶するファイルから特定することが可能となる。一般的に、名簿や顧客情報として使用されるファイルには、氏名、住所、電話番号など、様々な種別のデータが含まれている。そのような場合、本発明の個人情報ファイル判定システムを用いることによって、従来よりも精度良く、個人情報のファイルとして判定することができる。
According to the personal information file determination system of the present invention, only a file containing a large amount of personal information can be specified from a file stored in a computer terminal. In general, a file used as a name list or customer information includes various types of data such as name, address, and telephone number. In such a case, by using the personal information file determination system of the present invention, it can be determined as a file of personal information with higher accuracy than before.

本発明の個人情報ファイル判定システム1のシステム構成の一例を図1に示す。   An example of the system configuration of the personal information file determination system 1 of the present invention is shown in FIG.

本発明の個人情報ファイル判定システム1は、図1では一台のコンピュータ端末で実施される場合を示しているが、この各機能が複数のコンピュータ端末に各機能が分散して配置されており、複数のコンピュータ端末やサーバ(以下、これらを総称して、「コンピュータ端末」という場合もある)によりその処理が実現されても良い。   Although the personal information file determination system 1 of the present invention shows a case where it is implemented in one computer terminal in FIG. 1, each function is distributed and arranged in a plurality of computer terminals. The processing may be realized by a plurality of computer terminals and servers (hereinafter, these may be collectively referred to as “computer terminals”).

コンピュータ端末は、プログラムの演算処理を実行するCPUなどの演算装置20と、情報を記憶するRAMやハードディスクなどの記憶装置21とを少なくとも有している。コンピュータ端末上で実現する各機能(各手段)は、その処理を実行する手段(プログラムやモジュールなど)が演算装置20に読み込まれることでその処理が実行される。各機能は、記憶装置21に記憶した情報をその処理において使用する場合には、該当する情報を当該記憶装置21から読み出し、読み出した情報を適宜、演算装置20における処理に用いる。また、当該コンピュータ端末には、演算装置20の処理結果や記憶装置21に記憶する情報をインターネットやLANなどのネットワークを介して送受信する通信装置24、ディスプレイなどの表示装置22、キーボードやマウスやテンキーなどの入力装置23を有していても良い。図2にコンピュータ端末のハードウェア構成の一例を模式的に示す。   The computer terminal includes at least an arithmetic device 20 such as a CPU that executes arithmetic processing of a program, and a storage device 21 such as a RAM and a hard disk that store information. Each function (each means) realized on the computer terminal is executed when a means (program, module, etc.) for executing the process is read into the arithmetic unit 20. When using the information stored in the storage device 21 in the processing, each function reads the corresponding information from the storage device 21 and uses the read information for processing in the arithmetic device 20 as appropriate. The computer terminal also includes a communication device 24 that transmits and receives processing results of the arithmetic device 20 and information stored in the storage device 21 via a network such as the Internet or a LAN, a display device 22 such as a display, a keyboard, a mouse, or a numeric keypad. The input device 23 may be included. FIG. 2 schematically shows an example of the hardware configuration of the computer terminal.

本発明における各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上は同一の領域を為していても良い。   Each means in the present invention is only logically distinguished in function, and may be physically or practically the same area.

個人情報ファイル判定システム1は、ファイル記憶部2と個人情報ファイル判定部3と制御処理部4とを有する。   The personal information file determination system 1 includes a file storage unit 2, a personal information file determination unit 3, and a control processing unit 4.

ファイル記憶部2は、当該コンピュータ端末において、ファイルを記憶している。ここで記憶しているファイルの種類には様々なものがあり、文書ファイル、表計算ファイル、テキストファイル、プレゼンテーションファイル、画像ファイルなどその制限はない。   The file storage unit 2 stores a file in the computer terminal. There are various types of files stored here, and there are no restrictions such as document files, spreadsheet files, text files, presentation files, and image files.

個人情報ファイル判定部3は、ファイル記憶部2に記憶するファイルについて、個人情報ファイルであるかを特定する。個人情報ファイルとは、上述のように、ファイルの主な内容が個人情報そのものであり、その個人情報を一定の規則性のもとに、大量に含んでいるファイルである。例えば名簿や顧客情報のファイルが該当する。また個人情報とは、氏名、住所、電話番号、電子メールアドレス、年齢、性別などの属性情報を示す。なお個人のほかにも、法人などの組織体の属性情報であってもよく、本明細書では、「個人」との記載にはそれらも含まれる。   The personal information file determination unit 3 identifies whether the file stored in the file storage unit 2 is a personal information file. As described above, the personal information file is a file in which the main content of the file is the personal information itself and contains a large amount of the personal information with a certain regularity. For example, a directory and a customer information file are applicable. Personal information refers to attribute information such as name, address, telephone number, e-mail address, age, and sex. In addition to an individual, the attribute information of an organization such as a corporation may be used, and in this specification, the description of “individual” includes these.

個人情報ファイル判定部3は、文字情報抽出部31と個人情報判定部32と規則性判定部33とファイル判定部34とを有する。   The personal information file determination unit 3 includes a character information extraction unit 31, a personal information determination unit 32, a regularity determination unit 33, and a file determination unit 34.

個人情報ファイルには、大量に個人情報が含まれているため、一般的には、無秩序に各個人情報が含まれているのではなく、何らかの規則性(例えば周期性)により含まれていることがほとんどである。例えば、図4に示すように、「ID」、「氏名」、「都道府県」、「住所」、「電話番号」、「特記事項」などのように、各個人情報が予め定められた配列で記されている。   Since personal information files contain a large amount of personal information, in general, each personal information is not included randomly, but is included in some regularity (for example, periodicity). Is almost. For example, as shown in FIG. 4, each personal information has a predetermined arrangement such as “ID”, “name”, “prefecture”, “address”, “phone number”, “special notes”, and the like. It is written.

そこで個人情報ファイル判定部3は、処理対象としたファイルから文字情報を抽出し、その文字情報が個人情報に特有の文字情報であるかを判定したのち、個人情報に特有の文字情報として判定した文字情報について、それらの規則性(例えば周期性)を判定することで、個人情報ファイルであるかを判定する。   Therefore, the personal information file determination unit 3 extracts character information from the file to be processed, determines whether the character information is character information specific to the personal information, and then determines the character information specific to the personal information. By determining the regularity (for example, periodicity) of character information, it is determined whether it is a personal information file.

そのため個人情報ファイル判定部3は、文字情報抽出部31と個人情報判定部32と規則性判定部33とファイル判定部34とを有する。   Therefore, the personal information file determination unit 3 includes a character information extraction unit 31, a personal information determination unit 32, a regularity determination unit 33, and a file determination unit 34.

文字情報抽出部31は、ファイル記憶部2に記憶するファイルのうち、個人情報ファイルであるかを判定するファイルについて、そのファイルに含まれる文字情報を抽出する。この文字情報の抽出の際に、所定の記号(カンマ、コンマ、セミコロンなど)、空白、改行などの区切り記号を、抽出する文字情報の区切りとして認識して、抽出することが好ましい。文字情報同士の区切りのために、これらが使用されることが多いからである。また文字情報には、文字のほか、数字、記号なども含まれる。なお、処理対象のファイルが画像ファイルなどの場合には、そのままでは文字情報を抽出できないので、当該画像ファイルから、文字認識処理(OCR処理)などを実行することで、文字情報を抽出する。   The character information extraction unit 31 extracts character information included in a file for determining whether the file is a personal information file among the files stored in the file storage unit 2. When extracting the character information, it is preferable to recognize and extract a delimiter such as a predetermined symbol (comma, comma, semicolon, etc.), a blank, or a line feed as a delimiter of the character information to be extracted. This is because these are often used to separate character information. The character information includes not only characters but also numbers and symbols. If the file to be processed is an image file or the like, character information cannot be extracted as it is, and therefore character information is extracted from the image file by executing character recognition processing (OCR processing) or the like.

個人情報判定部32は、文字情報抽出部31が抽出した、ファイルに含まれる各文字情報について、その文字情報が個人情報に特有の文字情報であるかを判定する。またその個人情報がどのような項目の個人情報(「名前」「住所」「都道府県」「電話番号」「数値」など)であるのかを判定する。文字情報が個人情報であるか、そしてどの項目の個人情報であるかは、以下のように判定する。   The personal information determination unit 32 determines, for each character information included in the file extracted by the character information extraction unit 31, whether the character information is character information unique to the personal information. Also, it is determined what items of personal information the personal information is (such as “name”, “address”, “prefecture”, “phone number”, “numeric value”). Whether the character information is personal information and which item of personal information is determined as follows.

まず氏名であれば「姓」「名」で構成されており、所定の文字数内(例えば8文字以内など)であれば氏名として判定する。また氏名として明らかに使われることがない文字、例えば数字などが含まれていればそれは氏名ではないと判定しても良い。また「姓」「名」の間に区切り記号が設けられている場合には、区切り記号の前の「姓」、後を「名」として判定する。   First, if it is a full name, it consists of “last name” and “first name”. If it is within a predetermined number of characters (for example, within 8 characters), it is determined as a full name. If a character that is not clearly used as a name, such as a number, is included, it may be determined that it is not a name. When a delimiter is provided between “last name” and “first name”, “last name” before the delimiter and “first name” after the delimiter are determined.

次に「都道府県名」などは47都道府県に該当する文字列であるかを判定する。更に住所についても、都道府県名、市区町村名などの順番で配置されているので、それらの名称を記憶する保存部(図示せず)を備えておき、文字情報列の判定の際に、その保存部に記憶する情報との一致性を判定することで行える。   Next, it is determined whether the “prefecture name” is a character string corresponding to 47 prefectures. Furthermore, since the address is also arranged in the order of the prefecture name, city name, etc., a storage unit (not shown) for storing those names is provided, and when determining the character information string, This can be done by determining the consistency with the information stored in the storage unit.

また電話番号は数字が所定の桁数で並んでいれば(記号「−」が所定の桁に位置されていることを判定しても良い。また記憶されている市外局番などが先頭の所定桁数に含まれているかを判定しても良い)、電話番号であると判定できる。   If the phone number is arranged in a predetermined number of digits (it may be determined that the symbol “-” is positioned in a predetermined digit. The stored area code or the like is the first predetermined number. It may be determined whether the number is included in the number of digits) or a telephone number.

更に電子メールアドレスは英数字と「@」「.」を含み、その最後が「co.jp」、「com」、「ac.jp」などの所定の英字列(予め定められたドメイン名の文字列)になっていれば電子メールアドレスであると判定できる。   In addition, the e-mail address contains alphanumeric characters and “@” and “.”, And ends with a predetermined alphabetic character string such as “co.jp”, “com”, “ac.jp” (characters of a predetermined domain name). Column), it can be determined that it is an e-mail address.

生年月日は、元号の後に所定桁数の数字、または2桁か4桁の数字があり、その後、「年」、所定桁数の数字、「月」、所定桁数の数字、「日」と並んでいれば生年月日であると判定できる。   The date of birth has a number of digits after the era, or a two-digit or four-digit number, followed by “year”, a number of digits, “month”, a number of digits, “day” ", It can be determined that it is the date of birth.

このように、個人情報については「氏名」、「住所」、「電話番号」、「電子メールアドレス」、「生年月日」など定型的に構成される属性情報がほとんどである。そのため上記以外の属性情報、例えば「郵便番号」、「血液型」、「家族構成」、「所有資産金額」などもそれぞれの配列規則と一致しているかを判定することで、文字情報抽出部31が抽出した文字情報について、個人情報であるかを個人情報判定部32が判定することが出来る。なお個人情報判定部32は、文字情報抽出部31が抽出した文字情報について、区切り記号で区切られた文字情報を一つの文字情報として処理し、その文字情報が個人情報であるかを判定する。   As described above, most personal information includes attribute information such as “name”, “address”, “telephone number”, “e-mail address”, and “date of birth”. Therefore, by determining whether attribute information other than the above, for example, “zip code”, “blood type”, “family composition”, “owned asset amount”, and the like match the respective arrangement rules, the character information extraction unit 31 The personal information determination unit 32 can determine whether the character information extracted by is personal information. The personal information determination unit 32 processes the character information separated by the delimiter as one character information for the character information extracted by the character information extraction unit 31, and determines whether the character information is personal information.

規則性判定部33は、処理対象となったファイルの文字情報について、個人情報判定部32で個人情報の文字情報であるかの判定を行ったのち、個人情報判定部32で個人情報として判定した各文字情報について、あるいは文字情報抽出部31で抽出した各文字情報について、規則性に(例えば周期性)従って含まれているか、を判定する。なお以下の説明では規則性の一例として周期性の場合を示すが、周期性以外の規則性であっても良い。   The regularity determination unit 33 determines whether the character information of the file to be processed is the character information of the personal information by the personal information determination unit 32, and then determines the personal information by the personal information determination unit 32. It is determined whether each character information or each character information extracted by the character information extraction unit 31 is included according to regularity (for example, periodicity). In the following description, a case of periodicity is shown as an example of regularity, but regularity other than periodicity may be used.

周期性の判定には様々な方法がある。   There are various methods for determining periodicity.

第一の方法としては、区切り記号に応じた周期性を判定する方法である。一般的に名簿や顧客情報などは、表形式であることが多い。そこで行方向、あるいは列方向に各項目、例えば「氏名」、「住所」などが設定されており、その項目毎に各個人情報が含まれていることが多い。   The first method is to determine the periodicity according to the delimiter. In general, name lists and customer information are often in tabular form. Therefore, each item, such as “name” and “address”, is set in the row direction or the column direction, and personal information is often included for each item.

そこで行方向、列方向の各項目に、同一種類の個人情報が含まれているかを判定することで、周期性があるかを判定する。図5にこの場合の周期性の判定方法の一例を模式的に示す。図5(a)では、図4のファイルがCSV形式の場合を示しており、区切り記号としてカンマが使用されている。従って各文字情報はカンマによって区切られている。これを行、列ごとにそろえたのが図5(b)である。   Therefore, it is determined whether or not there is periodicity by determining whether the same type of personal information is included in each item in the row direction and the column direction. FIG. 5 schematically shows an example of the periodicity determination method in this case. FIG. 5A shows a case where the file in FIG. 4 is in the CSV format, and commas are used as delimiters. Therefore, each character information is separated by a comma. This is shown in FIG. 5B for each row and column.

図5(b)に示すように、第一の方法では、行方向、列方向のそれぞれに、あるいはいずれか一方向の各項目毎の文字情報について、同一種類の個人情報が含まれているかを判定し、一定割合以上が同一種類の個人情報であれば、それは周期性があると判定する。   As shown in FIG. 5B, in the first method, whether the same type of personal information is included in the character information for each item in each of the row direction, the column direction, or any one direction. If it is determined that a certain percentage or more of the same type of personal information is determined, it is determined that there is periodicity.

例えば図5(b)の場合、列方向に周期性を検索することで、「氏名」、「都道府県」、「住所」、「電話番号」の種類の個人情報がそれぞれ含まれていると判定できるので、周期性があると判定する。なお一部の文字情報は個人情報の種類について、誤認識もあり得るので、同一種類として判定した個人情報が一定割合以上、各列、各行に含まれていれば、周期性があると判定することが好ましい。   For example, in the case of FIG. 5B, by searching for periodicity in the column direction, it is determined that personal information of the types “name”, “prefecture”, “address”, and “phone number” are included. Since it is possible, it is determined that there is periodicity. Note that some character information may be misrecognized with respect to the type of personal information. Therefore, if personal information determined as the same type is included in each column and each row at a certain rate, it is determined that there is periodicity. It is preferable.

第二の方法としては、予め各アプリケーションプログラムに応じた周期性のパターンを所定の記憶部(図示せず)に記憶させておき、そのパターンと各文字情報とを比較させ、もっとも一致率が高かったものの周期として判定する。   As a second method, a periodic pattern corresponding to each application program is stored in advance in a predetermined storage unit (not shown), and the pattern and each character information are compared, and the highest matching rate is obtained. It is determined as the period of the object.

企業などで使用される個人情報ファイルとしては、それぞれ定められたフォーマットで作成されていることが多い。例えば顧客情報ファイルや社員名簿ファイルなどは、予め定められた項目の順にデータが配置されている。そこで個人情報ファイルとして使用される可能性のあるファイルの各項目配列のパターンをパターン辞書として記憶部に記憶させておき、文字情報抽出部31が抽出した文字情報、あるいは個人情報判定部32で判定した文字情報について、このパターン辞書における項目の配列パターンと、同一であるかを逐次、判定する。そしてそれらの一致率が最も高いパターンについて、その周期性で各文字情報が配列されていると判定できる。   Personal information files used in companies and the like are often created in a predetermined format. For example, in a customer information file, an employee list file, etc., data is arranged in the order of predetermined items. Therefore, the pattern of each item array of a file that may be used as a personal information file is stored in the storage unit as a pattern dictionary, and is determined by the character information extracted by the character information extraction unit 31 or the personal information determination unit 32. Whether the character information is the same as the arrangement pattern of the items in the pattern dictionary is sequentially determined. Then, it can be determined that each character information is arranged with the periodicity of the pattern having the highest matching rate.

例えば顧客情報ファイルの項目の配列パターンが「氏名」、「会社名」、「会社住所」、「会社電話番号」、「電子メールアドレス」、「役職」の順であり、社員名簿ファイルが「社員番号」、「氏名」、「所属部署」、「役職」、「電子メールアドレス」の順である場合に、これらの項目の並び順がパターン辞書に記憶されている。そして、規則性判定部33は、文字情報抽出部31で抽出した文字情報について、あるいは個人情報判定部32で判定した文字情報について、各文字情報ごとに順番に、同一種類の個人情報であるかを判定する。まず先頭の文字情報と、顧客情報ファイルのパターン辞書の最初の項目「氏名」とを比較し、次に、2つめの文字情報と、顧客情報ファイルのパターン辞書の2番目の項目「会社名」とを比較する。そして3番目の文字情報と、顧客情報ファイルのパターン辞書の3番目の項目「会社住所」とを比較する。これを最後の文字情報まで繰り返して比較する。   For example, the arrangement pattern of the items in the customer information file is "name", "company name", "company address", "company phone number", "email address", "position", and the employee list file is "employee" In the order of “number”, “name”, “affiliation department”, “position”, and “e-mail address”, the arrangement order of these items is stored in the pattern dictionary. The regularity determination unit 33 then determines whether the character information extracted by the character information extraction unit 31 or the character information determined by the personal information determination unit 32 is the same type of personal information in order for each character information. Determine. First, the first character information is compared with the first item “name” in the pattern dictionary of the customer information file, and then the second item “company name” in the second character information and the pattern dictionary of the customer information file. And compare. Then, the third character information is compared with the third item “company address” in the pattern dictionary of the customer information file. This is repeated until the last character information is compared.

顧客情報ファイルのパターン辞書との一致を終えると、次に、先頭の文字情報と、社員名簿ファイルのパターン辞書の最初の項目「社員番号」とを比較し、次に、2つめの文字情報と、社員名簿ファイルのパターン辞書の2番目の項目「氏名」とを比較する。そして3番目の文字情報と、社員名簿ファイルのパターン辞書の3番目の項目「所属部署」とを比較する。これを最後の文字情報まで繰り返して比較する。   When the match with the pattern dictionary of the customer information file is completed, the first character information is compared with the first item “employee number” of the pattern dictionary of the employee list file, and then the second character information and The second item “name” of the pattern dictionary in the employee list file is compared. Then, the third character information is compared with the third item “affiliated department” in the pattern dictionary of the employee list file. This is repeated until the last character information is compared.

このように最後のパターン辞書まで比較すると、そのうち、当該処理対象のファイルに含まれる文字情報は、もっとも一致率が高かったパターン辞書の並び方(周期性)であると判定する。例えば顧客情報ファイルとの一致率が1%であり、社員名簿ファイルとの一致率が98%であったとすると、当該ファイルに含まれる個人情報は、社員名簿ファイルの周期性で構成されていると判定できる。   In this way, when comparing up to the last pattern dictionary, it is determined that the character information included in the processing target file is the pattern dictionary arrangement (periodicity) having the highest matching rate. For example, if the matching rate with the customer information file is 1% and the matching rate with the employee list file is 98%, the personal information included in the file is composed of the periodicity of the employee list file. Can be judged.

なおすべてのパターン辞書との比較の結果、最も高い一致率の値が所定値以下(または所定値未満)の場合には、それはいずれとも一致しなかったとして判定し、すなわち、当該ファイルについて、周期性はないと判定する。   As a result of comparison with all the pattern dictionaries, when the highest matching rate value is equal to or less than a predetermined value (or less than a predetermined value), it is determined that none of the values matches, that is, the file has a period. It is determined that there is no sex.

第三の判定方法としては、以下のような処理がある。個人情報判定部32が個人情報として判定した文字情報について、その各文字情報からなるデータ列のうち、所定範囲のデータの項目を抽出する。例えば先頭から5番目までのデータの項目を抽出する。そして抽出したデータの項目と、各文字情報からなるデータ列の項目とを逐次比較し、一致した回数が所定回数以上(所定回数より多い)ならば規則性があると判定し、所定回数未満(所定回数以下)ならば規則性がないと判定する。これを模式的に示すのが図26である。   The third determination method includes the following processing. About the character information which the personal information determination part 32 determined as personal information, the data item of the predetermined range is extracted from the data sequence which consists of each character information. For example, the data items from the top to the fifth are extracted. Then, the extracted data item and the data string item composed of each character information are sequentially compared, and if the number of matches is equal to or greater than the predetermined number (more than the predetermined number), it is determined that there is regularity. If it is equal to or less than a predetermined number of times, it is determined that there is no regularity. This is schematically shown in FIG.

所定範囲のデータの項目と、データ列の項目とが一致すればその部分は同じ並び方であることから、規則性があると考えられる。従って、このような方法により、規則性があるかを判定することができる。   If the data items in the predetermined range and the data string items match, the portions are arranged in the same way, so it is considered that there is regularity. Therefore, it is possible to determine whether there is regularity by such a method.

第四の周期性の判定方法としては、以下のような方法がある。   As a method for determining the fourth periodicity, there are the following methods.

まず個人情報判定部32で個人情報であると判定した各文字情報について、一連のデータ列とし、判定した個人情報の項目で、所定のコードにコード化する。例えば、個人情報であると判定した各文字情報の各項目について、項目「名前」は「01h」、項目「都道府県」は「11h」、項目「住所」は「12h」、項目「電話番号」は「13h」、項目「数値」は「00h」、項目「不明(文字)」は「F0h」、項目「不明(英数字)」は「F1h」、項目「不明(空白)」は「FFh」とのように、予め項目ごとに定められたコードに基づいて、個人情報であると判定した各文字情報について、コード化する。これを模式的に示すのが図6である。   First, each piece of character information determined to be personal information by the personal information determination unit 32 is converted into a series of data strings and encoded into a predetermined code in the determined personal information item. For example, for each item of character information determined to be personal information, the item “name” is “01h”, the item “prefecture” is “11h”, the item “address” is “12h”, and the item “phone number” Is “13h”, item “numerical value” is “00h”, item “unknown (character)” is “F0h”, item “unknown (alphanumeric)” is “F1h”, and item “unknown (blank)” is “FFh”. As described above, each character information determined to be personal information is coded based on a predetermined code for each item. This is schematically shown in FIG.

この時点ではコード化されたデータの周期性はわかっていない。そのため基準となる項目(任意に設定可能)と周期性の仮サイズ(仮に設定した周期性の値)を設定する。基準項目としては、例えば先頭の項目、あるいはデータにおいて最も多い項目などを基準項目として設定する。また周期性の仮サイズとしては2以上の任意の値とすることが良い。初期値が大きくなれば処理回数が少なくなるので高速化した処理が期待されるが、周期性のサイズが仮サイズより小さい場合には結果を求めることが出来ない。そのため適切な大きさが求められ、仮サイズを2とすることによって、結果を求められる可能性は高まる。なお周期性の仮サイズに、後述するデータをシフトした回数を加えた値が周期性のサイズとなる。   At this point, the periodicity of the encoded data is unknown. Therefore, a reference item (which can be arbitrarily set) and a temporary size of periodicity (a temporarily set periodicity value) are set. As the reference item, for example, the top item or the most frequently used item is set as the reference item. Also, the temporary size of periodicity is preferably an arbitrary value of 2 or more. If the initial value is increased, the number of processes is reduced, so that high-speed processing is expected. However, if the periodicity size is smaller than the temporary size, the result cannot be obtained. Therefore, an appropriate size is obtained, and by setting the provisional size to 2, the possibility of obtaining the result increases. A value obtained by adding the number of times of shifting data, which will be described later, to the temporary periodic size is the periodic size.

ここでは、基準項目として「数値」(コードでは「00h」)とし、周期性の仮サイズとして3を設定したとする。そうすると、まず規則性判定部33は、基準項目までデータをシフトする。そうすると、ここでは基準項目が先頭の「数値」であるのでそのまま処理可能となる。基準項目までシフトしたデータは、例えば配列(これを配列Aとする)などに逐次格納する。なお配列処理はポインタ処理によっても同様のことが実現できる。   Here, it is assumed that “numerical value” (“00h” in the code) is set as a reference item, and 3 is set as a temporary size of periodicity. Then, the regularity determination unit 33 first shifts the data to the reference item. Then, since the reference item is the first “numerical value” in this case, it can be processed as it is. Data shifted to the reference item is sequentially stored in, for example, an array (referred to as array A). The same processing can be realized by the pointer processing.

そして、基準項目から、周期性の仮サイズの次の項目までシフトする。このシフトしたデータについても、例えば配列(これを配列Bとする)などに逐次格納する。そして配列Aの先頭項目と、配列Bの先頭項目とを比較し、一致するか判定する。これを模式的に示すのが図7である。   And it shifts from the reference item to the next item of the temporary size of periodicity. The shifted data is also sequentially stored in, for example, an array (this is array B). Then, the first item of array A and the first item of array B are compared to determine whether they match. This is schematically shown in FIG.

図7の場合、配列Aの先頭項目のコードは「00h」であり、配列Bの先頭項目のコードは「12h」であるから一致しない。一致しない場合には、配列Bについて、更に、一つ項目をシフトする(シフトした回数を記録しておく。この時点ではシフト回数=1)。そしてシフトさせた状態で、上述と同様に、配列Aの先頭項目と配列Bの先頭項目とを比較し、一致するか判定する。これを模式的に示すのが図8である。   In the case of FIG. 7, the code of the first item of the array A is “00h” and the code of the first item of the array B is “12h”, which does not match. If they do not match, one item is further shifted in the array B (the number of times of shifting is recorded. At this time, the number of times of shifting = 1). Then, in the shifted state, the first item of the array A and the first item of the array B are compared to determine whether they match, as described above. This is schematically shown in FIG.

図8の場合、配列Aの先頭項目のコードは「00h」であり、一つシフトした配列Bの先頭項目のコードは「13h」であるから一致しない。一致しない場合には、配列Bについて、更に、一つ項目をシフトする(シフト回数=2)。そしてシフトさせた状態で、上述と同様に、配列Aの先頭項目と配列Bの先頭項目とを比較し、一致するか判定する。これを模式的に示すのが図9である。   In the case of FIG. 8, the code of the first item of the array A is “00h” and the code of the first item of the array B shifted by one is “13h”. If they do not match, one item is further shifted for array B (number of shifts = 2). Then, in the shifted state, the first item of the array A and the first item of the array B are compared to determine whether they match, as described above. This is schematically shown in FIG.

図9の場合、配列Aの先頭項目のコードは「00h」であり、一つシフトした配列Bの先頭項目のコードは「F0h」であるから一致しない。一致しない場合には、配列Bについて、更に、一つ項目をシフトする(シフト回数=3)。そしてシフトさせた状態で、上述と同様に、配列Aの先頭項目と配列Bの先頭項目とを比較し、一致するか判定する。これを模式的に示すのが図10である。   In the case of FIG. 9, the code of the first item of the array A is “00h”, and the code of the first item of the array B shifted by one is “F0h”. If they do not match, one item is further shifted for array B (shift count = 3). Then, in the shifted state, the first item of the array A and the first item of the array B are compared to determine whether they match, as described above. This is schematically shown in FIG.

図10の場合、配列Aの先頭項目のコード「00h」と、配列Bの先頭項目のコード「00h」とが一致する。そうすると配列Aの2つめの項目のコード「01h」と配列Bの2つめの項目のコード「01h」、配列Aの3つめの項目のコード「11h」と配列Bの3つめの項目のコード「02h」とを比較する。そうすると周期性の仮サイズのすべての項目が一致する。   In the case of FIG. 10, the code “00h” of the first item of the array A matches the code “00h” of the first item of the array B. Then, the code “01h” of the second item of the array A, the code “01h” of the second item of the array B, the code “11h” of the third item of the array A, and the code “3h of the third item of the array B” 02h ". Then all items of the temporary temporary size match.

この場合、配列Aと配列Bとの項目を順番に比較する。そうすると4つめの項目は配列Aと配列Bはともに「12h」で一致し、5つめの項目は配列Aと配列Bはともに「13h」で一致する。そして6つめの項目は配列Aが「F0h」、配列Bが「F0h」となる。   In this case, the items of array A and array B are compared in order. Then, in the fourth item, both the arrays A and B match with “12h”, and in the fifth item, both the arrays A and B match with “13h”. In the sixth item, array A is “F0h” and array B is “F0h”.

このように順番に処理をしていくと、すべての配列が一致すると判定できる。これは、一周期を経て、データが一致したことを示している。このようにすべての配列が一致すると、配列Bのデータをウィンドウの仮サイズから3回シフトさせれば配列Aと配列Bのデータが一致することが判定できるので、周期性の仮サイズ(=3)とシフト回数(=3)とを加算して、周期性のサイズは「6」であると判定できる。つまり6つのデータで一周期であることを規則性判定部33は判定する。これを模式的に示すのが図11である。   If processing is performed in this order, it can be determined that all the arrays match. This indicates that the data match after one cycle. If all the arrays match in this way, it is possible to determine that the data in array A and array B match if the data in array B is shifted three times from the temporary window size, so that the temporary temporary size (= 3) ) And the number of shifts (= 3) are added, and the size of the periodicity can be determined to be “6”. That is, the regularity determining unit 33 determines that one cycle is composed of six data. This is schematically shown in FIG.

なおこのような処理を配列Bの最後まで繰り返しても周期性を判定できなかった場合には、規則性判定部33は、周期性がないと判定する。   If the periodicity cannot be determined even when such processing is repeated until the end of the array B, the regularity determining unit 33 determines that there is no periodicity.

以上のようにして規則性判定部33は、周期性を判定する。   As described above, the regularity determination unit 33 determines periodicity.

なお第四の判定方法では、すべての個人情報が正確に判定できていることが望ましいが、実際には、文字情報抽出部31、個人情報判定部32で誤認識をする可能性もある。そのため上記とは異なり、周期性のサイズのデータがすべて一致しなくても、一致率が所定値以上(例えば98%以上など)であれば、その時点で周期性の仮サイズとシフト回数とを加算して、周期性のサイズを判定しても良い。   In the fourth determination method, it is desirable that all personal information can be accurately determined. However, there is a possibility that the character information extraction unit 31 and the personal information determination unit 32 may misrecognize. Therefore, unlike the above, even if all the data of the periodicity do not match, if the matching rate is a predetermined value or more (for example, 98% or more), the temporary size of the periodicity and the number of shifts are calculated at that time. The size of periodicity may be determined by addition.

この場合の第五の判定方法について説明する。   A fifth determination method in this case will be described.

図6について一部の情報を誤認識した場合の例を図12に示す。図12の網掛け部分が誤認識した部分である。この方法の場合でも上述の判定方法と同様に、まずコード化する(図12の下方)。なお一致率の閾値として60%とする(本明細書ではデータ数が少ないので閾値を60%と低く設定したが、実際にはデータ数は多くなるので閾値を80%、85%、90%、95%、98%など、適宜設定することが好ましい。誤認識率が多いと想定される場合には閾値を低く設定し、誤認識率が少ないと想定される場合には閾値を高く設定すればよい。またデータ数によっても設定を変更しても良い)。   FIG. 12 shows an example when some information is erroneously recognized with respect to FIG. The shaded portion in FIG. 12 is a misrecognized portion. Even in the case of this method, similar to the above-described determination method, first, encoding is performed (downward in FIG. 12). Note that the threshold value of the coincidence rate is set to 60% (in this specification, since the number of data is small, the threshold value is set as low as 60%. However, since the number of data actually increases, the threshold value is 80%, 85%, 90%, It is preferable to set appropriately 95%, 98%, etc. If the misrecognition rate is assumed to be high, the threshold is set low, and if the misrecognition rate is assumed to be low, the threshold is set high. You can also change the setting depending on the number of data).

例えば上述では、図7において、配列Aと配列Bの先頭項目のみを比較していたが、先頭項目のみを比較するのではなく、配列Aと配列Bのすべての項目(ただし配列Aについては配列Bの項目の長さまで)を比較し、データの一致率を算出する。これを模式的に示すのが、図13である。そして、この一致率が所定値以上(所定値より大きい)であればその時点で周期性があると判定し、所定値未満(所定値以下)であれば配列Bのデータを一つシフトする。   For example, in the above description, in FIG. 7, only the first item of the array A and the array B is compared. However, not only the first item is compared, but all items of the array A and the array B (however, the array A is the array To the length of the item B), and the data coincidence rate is calculated. This is schematically shown in FIG. If the coincidence rate is greater than or equal to a predetermined value (greater than a predetermined value), it is determined that there is periodicity at that time, and if less than a predetermined value (below the predetermined value), the data in array B is shifted by one.

図13の場合には、15のデータのうち一致している項目が0なので一致率は0%である。従って、配列Bのデータを一つシフトする(シフト回数=1)。そしてシフトした場合にも同様に処理を実行する。これを模式的に示すのが図14である。   In the case of FIG. 13, the matching rate is 0% because the matching item of 15 data is 0. Therefore, the data in array B is shifted by one (number of shifts = 1). The same process is executed when the shift is performed. This is schematically shown in FIG.

図14の場合には、14のデータのうち一致している項目が2なので一致率は14%である。従って、配列Bのデータを更に一つシフトする(シフト回数=2)。そしてシフトした場合にも同様に処理を実行する。これを模式的に示すのが図15である。   In the case of FIG. 14, the matching item is 2 out of 14 data, so the matching rate is 14%. Therefore, the data in array B is further shifted by one (number of shifts = 2). The same process is executed when the shift is performed. This is schematically shown in FIG.

図15の場合には、13のデータのうち一致している項目が0なので一致率は0%である。従って、配列Bのデータを更に一つシフトする(シフト回数=3)。そしてシフトした場合にも同様に処理を実行する。これを模式的に示すのが図16である。   In the case of FIG. 15, the matching item is 0 in 13 data, so the matching rate is 0%. Therefore, the data in array B is further shifted by one (number of shifts = 3). The same process is executed when the shift is performed. This is schematically shown in FIG.

図16の場合には、12のデータのうち一致している項目が8なので一致率は67%である。従って、周期性があると判定できる。そしてその周期性のサイズは、周期性の仮サイズ(=3)とシフト回数(=3)とを加算して「6」であると判定する。   In the case of FIG. 16, the matching item is 8 out of 12 data, so the matching rate is 67%. Therefore, it can be determined that there is periodicity. The periodicity size is determined to be “6” by adding the temporary temporary size (= 3) and the number of shifts (= 3).

なお上述では配列Bのすべてのデータと配列Aとを比較した場合を説明したが、データ数がきわめて多い場合、配列Bのすべてのデータと比較すると処理時間を要する場合がある。そのため配列Bのうちの一部のデータとそれに対応する配列Aとを比較するようにしても良い。   In the above description, the case where all the data of the array B is compared with the array A has been described. However, when the number of data is extremely large, the processing time may be required when compared with all the data of the array B. Therefore, some data in the array B may be compared with the array A corresponding thereto.

更に認識の結果、不明を示すコードと比較する場合には、その項目は一致した項目としてカウントする、あるいは比較を行わなくても良い。また上述の第五の判定方法において、すべてのデータをシフトしても一致率を充足しなかった場合には周期性がないと判定する。   Further, when comparing with a code indicating unknown as a result of recognition, the item may be counted as a matched item, or comparison may not be performed. In the fifth determination method described above, it is determined that there is no periodicity when the coincidence rate is not satisfied even when all data is shifted.

第六の規則性の判定方法としては、以下のような処理を行うことができる。個人情報として抽出した文字情報のデータ列の一例を図17に示す。まず規則性判定部33は、図17のデータ列の一部または全部(処理対象となるデータ列)を抽出し、そのデータ列について、上述の各場合と同様にコード化する。そしてコード化したデータ列を半分に分ける。そして先頭から半分までを第1のデータ列(配列A)、半分以降を第2のデータ列(配列B)とする。図17に対して、この処理を行った状態を図18に示す。なおここでは2つのデータ列を生成する際に半分の位置で第1のデータ列、第2のデータ列としたが、半分の位置ではなく、任意の位置で区切り、第1のデータ列、第2のデータ列とすることもできる。   As a method for determining the sixth regularity, the following processing can be performed. An example of a data string of character information extracted as personal information is shown in FIG. First, the regularity determination unit 33 extracts a part or all of the data string (data string to be processed) in FIG. 17 and encodes the data string in the same manner as in each of the above cases. Then, the encoded data string is divided in half. A first data string (array A) is formed from the first half to a half, and a second data string (array B) is formed after the half. FIG. 18 shows a state in which this processing is performed with respect to FIG. In addition, here, when generating two data strings, the first data string and the second data string are set at half positions, but the first data string and the second data string are separated not at half positions but at arbitrary positions. Two data strings can also be used.

そして配列Aと配列Bの各項目を比較し、データの一致率を算出する。そして算出した一致率が所定値以上(所定値より大きい)であればその時点で周期性があると判定し、所定値未満(所定値以下)であれば配列Aまたは配列Bのデータを一つシフトする。   Then, each item of the array A and the array B is compared to calculate the data matching rate. If the calculated coincidence rate is equal to or higher than a predetermined value (greater than a predetermined value), it is determined that there is periodicity at that time. shift.

図18の場合には配列Aと配列Bの各項目のデータは一致していないので、一致率は0%であることから、配列Bのデータを一つシフトする。この状態を示すのが図19である。   In the case of FIG. 18, since the data of each item of the array A and the array B do not match, the match rate is 0%, so the data of the array B is shifted by one. FIG. 19 shows this state.

図19の場合には、14のデータのうち一致している項目が1なので一致率は7%である。従って、配列Bのデータを一つシフトする。これを模式的に示すのが図20である。   In the case of FIG. 19, the matching rate is 7% because the matching item is 14 in 14 data. Therefore, the data in array B is shifted by one. This is schematically shown in FIG.

図20の場合には、13のデータのうち一致している項目が0なので一致率は0%であることから、配列Bのデータを一つシフトする。この状態を示すのが図21である。   In the case of FIG. 20, since the matching item is 0 among the 13 data, the matching rate is 0%, so the data of the array B is shifted by one. This state is shown in FIG.

図21の場合には、12のデータのうち一致している項目が11なので一致率は92%であることから、所定値以上である(閾値が80%として設定されていた場合)。つまり、図21の状態において、配列Aと配列Bとで比較した各項目は(ほぼ)一致するデータの並び方であることから、ここに周期性があると考えられる。   In the case of FIG. 21, since the matching item is 11 among the 12 data, the matching rate is 92%, which is equal to or greater than a predetermined value (when the threshold is set as 80%). That is, in the state of FIG. 21, each item compared between the array A and the array B is an arrangement of (almost) coincident data, and therefore it is considered that there is periodicity here.

以上のようにして規則性判定部33は、規則性を判定しても良い。また第五の判定方法の場合と同様に、データ数がきわめて多い場合、配列Bのすべてのデータと比較すると処理時間を要する場合がある。そのため配列Bのうちの一部のデータとそれに対応する配列Aとを比較するようにしても良い。   As described above, the regularity determination unit 33 may determine regularity. Similarly to the case of the fifth determination method, when the number of data is extremely large, processing time may be required when compared with all the data in the array B. Therefore, some data in the array B may be compared with the array A corresponding thereto.

更に認識の結果、不明を示すコードと比較する場合には、その項目は一致した項目としてカウントする、あるいは比較を行わなくても良い。また上述の第六の判定方法において、すべてのデータをシフトしても一致率を充足しなかった場合には周期性がないと判定する。   Further, when comparing with a code indicating unknown as a result of recognition, the item may be counted as a matched item, or comparison may not be performed. Further, in the sixth determination method described above, if the coincidence rate is not satisfied even when all data is shifted, it is determined that there is no periodicity.

以上のように、第一の判定方法乃至第六の判定方法のいずれか一以上を用いて、規則性判定部33は、個人情報判定部32で個人情報として判定した各文字情報について、あるいは文字情報抽出部31で抽出した各文字情報について、周期性を判定する。   As described above, using any one or more of the first determination method to the sixth determination method, the regularity determination unit 33 uses the personal information determination unit 32 to determine each character information or character For each character information extracted by the information extraction unit 31, the periodicity is determined.

ファイル判定部34は、規則性判定部33において、処理対象となったファイルについて周期性があると判定すると、そのファイルは個人情報ファイルであると判定する。また規則性判定部33において、周期性がないと判定する、あるいは周期性があると判定できなかった場合には、そのファイルは個人情報ファイルではないと判定する。   If the regularity determination unit 33 determines that the file to be processed has periodicity, the file determination unit 34 determines that the file is a personal information file. If the regularity determination unit 33 determines that there is no periodicity or cannot determine that there is periodicity, the regularity determination unit 33 determines that the file is not a personal information file.

制御処理部4は、個人情報ファイル判定部3において、処理対象となったファイルが個人情報ファイルであると判定すると、当該ファイルに対して所定の制御処理を実行する。例えば当該ファイルに対して、個人情報ファイルであることを示すフラグを付したり、当該ファイルを個人情報ファイルを記録している所定のデータベースやサーバに登録させるなどの処理がある。また当該ファイルに対するセキュリティレベルを高いレベルに設定するなどのセキュリティに対する処理を行っても良い。   When the personal information file determination unit 3 determines that the file to be processed is a personal information file, the control processing unit 4 executes a predetermined control process on the file. For example, there are processes such as attaching a flag indicating that the file is a personal information file, or registering the file in a predetermined database or server in which the personal information file is recorded. Further, security processing such as setting a high security level for the file may be performed.

次に本発明の個人情報ファイル判定システム1を用いた処理プロセスの一例を、図3のフローチャートを用いて説明する。なおここで処理対象とするファイルとして図22及び図23のファイルの場合を説明する。なお図22は名簿ファイルの一例、図23は文書ファイルの一例である。   Next, an example of a processing process using the personal information file determination system 1 of the present invention will be described with reference to the flowchart of FIG. Here, the case of the files shown in FIGS. 22 and 23 will be described as files to be processed. FIG. 22 shows an example of a name list file, and FIG. 23 shows an example of a document file.

図22及び図23のファイルはファイル記憶部2に記憶されている。そのためまず個人情報ファイル判定部3は、ファイル記憶部2から処理対象とする図22の名簿ファイルを抽出し(S100)、文字情報抽出部31がそのファイルから文字情報を抽出する(S110)。   The files shown in FIGS. 22 and 23 are stored in the file storage unit 2. Therefore, the personal information file determination unit 3 first extracts the name list file of FIG. 22 to be processed from the file storage unit 2 (S100), and the character information extraction unit 31 extracts character information from the file (S110).

そうすると、「○山○男」「○○市○○町1−1−1」「012−3456−7890」「●本●蔵」「●●市●●町2−2−2」「098−7654−3210」「□川□子」「□□市□□町3−3−3」「111−1111−1111」を文字情報として抽出できる。なお区切り記号として、空白、句読点、改行を使用した場合を示している。   Then, “○ mountain ○ man” “○ city ○○ town 1-1-1” “012-3456-7890” “● book ● warehouse” ●● city ●● town 2-2-2 “098-” 7654-3210, “□□□□”, “□□ City □□ machi 3-3-3”, and “111-1111-1111” can be extracted as character information. In addition, the case where a space, a punctuation mark, and a line feed are used as a delimiter is shown.

個人情報判定部32は、文字情報抽出部31で抽出した各文字情報に対して、その文字情報が個人情報であるかを判定し、その個人情報がどの項目の個人情報であるのかを判定する(S120)。そうすると、「○山○男」は「名前」、「○○市○○町1−1−1」は「住所」、「012−3456−7890」は「電話番号」、「●本●蔵」は「名前」、「●●市●●町2−2−2」は「住所」、「098−7654−3210」は「電話番号」、「□川□子」は名前、「□□市□□町3−3−3」は「住所」、「111−1111−1111」は「電話番号」のように判定する。   The personal information determination unit 32 determines, for each character information extracted by the character information extraction unit 31, whether the character information is personal information, and determines which item of the personal information the personal information is. (S120). Then, “○ yama ○ man” is “name”, “○ city ○○ town 1-1-1” is “address”, “012-3456-7890” is “phone number”, “● book ● kura” Is “name”, “●● city ●● machi 2-2-2” is “address”, “098-7654-3210” is “phone number”, “□□□□” is the name, “□□ city □ □ Town 3-3-3 ”is determined as“ address ”, and“ 111-1111-1111 ”is determined as“ phone number ”.

このように文字情報抽出部31で抽出した文字情報について個人情報であるかを判定したのち、規則性判定部33が、それらの文字情報(個人情報として判定した文字情報)が、周期性を備えて含まれているかを、上述の第一の判定方法乃至第六の判定方法のいずれか一以上により判定する(S130)。   After determining whether the character information extracted by the character information extraction unit 31 is personal information in this way, the regularity determination unit 33 has periodicity in the character information (character information determined as personal information). Is determined by any one or more of the first to sixth determination methods described above (S130).

そうするとこれらは周期性を備えていると判定できるので、ファイル判定部34は、図22の名簿ファイルは個人情報ファイルであると判定する(S140)。これを模式的に示すのが図24である。そうすると制御処理部4は、ファイル判定部34において図22の名簿ファイルが個人情報ファイルであると判定したので(S150)、制御処理部4が、当該ファイルに対して所定の制御処理を実行する(S160)。   Then, since these can be determined to have periodicity, the file determination unit 34 determines that the name list file of FIG. 22 is a personal information file (S140). This is schematically shown in FIG. Then, since the control processing unit 4 determines in the file determination unit 34 that the name list file of FIG. 22 is a personal information file (S150), the control processing unit 4 executes predetermined control processing on the file (S150). S160).

例えば図22の名簿ファイルに対して、個人情報ファイルであることを示すフラグを付したり、その名簿ファイルを個人情報ファイルを記録している所定のデータベースやサーバに登録させる(このデータベースやサーバには、高いセキュリティ処理が施されており、その操作ログなどが常に記録されていることが好ましい)。あるいは、図22の名簿ファイルのセキュリティ設定を高いレベル、例えば「コピー不可」、「印刷不可」、「添付不可」に変更するなどの処理をしても良い。また、判定した規則性(周期性など)を表示装置22で表示させるように処理しても良い。   For example, a flag indicating that it is a personal information file is attached to the name list file of FIG. 22, or the name list file is registered in a predetermined database or server that records the personal information file (in this database or server). Is preferably subjected to high security processing and its operation log is always recorded). Alternatively, the security setting of the name list file in FIG. 22 may be changed to a high level, for example, “copying impossible”, “printing impossible”, or “attachment impossible”. Moreover, you may process so that the determined regularity (periodicity etc.) may be displayed on the display apparatus 22. FIG.

一方、個人情報ファイル判定部3は、次に、ファイル記憶部2に記憶する図23の文書ファイルを抽出し(S100)、文字情報抽出部31がそのファイルから文字情報を抽出する(S110)。   On the other hand, the personal information file determination unit 3 next extracts the document file of FIG. 23 stored in the file storage unit 2 (S100), and the character information extraction unit 31 extracts character information from the file (S110).

そうすると、「○山○男」「様」「本件につきまして不明点等がありましたら、」「以下までご連絡ください。」「●本●蔵」「098−7654−3210」「●●市●●町2−2−2」を文字情報として抽出できる。   If you have any questions or concerns about this matter, please contact us at the following address: "● ● ● warehouse” “098-7654-3210” “● ● city ● ● town 2-2-2 "can be extracted as character information.

個人情報判定部32は、文字情報抽出部31で抽出した各文字情報に対して、その文字情報が個人情報であるかを判定し、その個人情報がどの項目の個人情報であるのかを判定する(S120)。そうすると、「○山○男」は「名前」、「様」は「不明(文字)」、「本件につきまして不明点等がありましたら、」は「不明(文字)」、「以下までご連絡ください。」は「不明(文字)」、「●本●蔵」は「名前」、「098−7654−3210」は「電話番号」、「●●市●●町2−2−2」は「住所」のように判定する。   The personal information determination unit 32 determines, for each character information extracted by the character information extraction unit 31, whether the character information is personal information, and determines which item of the personal information the personal information is. (S120). Then, please contact “Name”, “Mr.” is “Unknown (character)”, “If you have any questions about this matter,” “Unknown (character)”, “Please contact below. "" Unknown (characters) "," ● This ● Kura "is" Name "," 098-7654-3210 "is" Telephone Number "," ● ● City ●● 2-2-2 "is" Address " Judge as follows.

このように文字情報抽出部31で抽出した文字情報について個人情報であるかを判定したのち、規則性判定部33が、それらの文字情報(個人情報として判定した文字情報)が、周期性を備えて含まれているかを、上述の第一の判定方法乃至第六の判定方法のいずれか一以上により判定する(S130)。   After determining whether the character information extracted by the character information extraction unit 31 is personal information in this way, the regularity determination unit 33 has periodicity in the character information (character information determined as personal information). Is determined by any one or more of the first to sixth determination methods described above (S130).

そうするとこれらは周期性を備えていないと判定できるので、ファイル判定部34は、図23の名簿ファイルは個人情報ファイルではないと判定する(S140)。これを模式的に示すのが図25である。そうすると制御処理部4は、ファイル判定部34において図23の文書ファイルが個人情報ファイルではないと判定したので(S150)、当該ファイルに対して所定の制御処理を実行しない。   Then, since it can be determined that these do not have periodicity, the file determination unit 34 determines that the name list file of FIG. 23 is not a personal information file (S140). This is schematically shown in FIG. Then, the control processing unit 4 determines in the file determination unit 34 that the document file in FIG. 23 is not a personal information file (S150), and does not execute a predetermined control process on the file.

なお上述では制御処理部4は個人情報ファイルと判定した場合に所定の制御処理を実行する場合を説明したが、個人情報ファイルではないと判定した場合に、個人情報ファイルであると判定した場合とは異なる制御処理、例えば個人情報ファイルではないことを示すフラグを付す、などを実行するように構成しても良い。   In the above description, the control processing unit 4 executes a predetermined control process when it is determined as a personal information file. However, when it is determined that the control processing unit 4 is not a personal information file, it is determined that the control processing unit 4 is a personal information file. May be configured to execute different control processing, for example, a flag indicating that the file is not a personal information file.

図22及び図23のファイルの場合、従来の個人情報の判定システムでは、いずれもそのファイルの内容に、名前、住所、電話番号などの情報を含んでいることから、個人情報ファイルであると判定してしまう。しかし本願発明の場合、図22の場合には個人情報ファイルであると判定するが、図23の場合には個人情報の並び方に周期性が存在しないため、個人情報ファイルではないと判定できる。このように本願発明では、名簿や顧客情報などのような個人情報が大量に含まれており、それが周期性を備えて含まれているファイルのみを個人情報ファイルとして判定することが出来る。そして現実的にも、実際に保護されるべきファイルは、このような大量の個人情報を含むファイルであり、実際の運用としても非常に有益なシステムとなる。   In the case of the files of FIG. 22 and FIG. 23, the conventional personal information determination system determines that the file is a personal information file because the contents of the file include information such as name, address, and telephone number. Resulting in. However, in the case of the present invention, in the case of FIG. 22, it is determined that the file is a personal information file. However, in the case of FIG. As described above, in the present invention, a large amount of personal information such as a name list and customer information is included, and only files that are included with periodicity can be determined as personal information files. In reality, a file to be actually protected is a file containing such a large amount of personal information, which is a very useful system in actual operation.

なお上述の実施例では規則性の一例として周期性を判定したが、それ以外の規則性であっても良い。つまり周期性がなくても、一定の規則性に従って個人情報がファイルに含まれている場合には、そのファイルを個人情報ファイルと判定することも出来る。   In the embodiment described above, periodicity is determined as an example of regularity, but other regularity may be used. That is, even if there is no periodicity, if the personal information is included in the file according to a certain regularity, the file can be determined as a personal information file.

上述の実施例では、ファイルから文字情報を抽出して、その文字情報が個人情報であるかを判定して、更に規則性を有するかを判定する構成としていたが、ファイルに含まれる情報としては文字情報のほかにも、顔画像などのバイオメトリクス情報(生体情報)であっても良い。この場合、ファイルから、ファイルに含まれている画像情報を抽出し、その画像情報が顔画像であるかを判定する。この画像情報が顔画像であるかは、画像情報から特徴点(顔の各部位の特徴とする点など)を抽出し、その特徴点が顔画像の特徴点と一致するかを判定することにより、顔画像であるか否かの判定が可能である。そして顔画像であると判定した画像情報に対して、更に規則性を有するかを判定する処理(実施例1の処理)を実行することにより、個人情報ファイルであるかの判定処理を行うこともできる。   In the above-described embodiment, the character information is extracted from the file, it is determined whether the character information is personal information, and it is further determined whether the character information has regularity. In addition to character information, biometric information (biological information) such as a face image may be used. In this case, image information included in the file is extracted from the file, and it is determined whether the image information is a face image. Whether this image information is a face image is obtained by extracting feature points (such as points that are characteristic of each part of the face) from the image information and determining whether the feature points match the feature points of the face image. It is possible to determine whether the image is a face image. The image information determined to be a face image may be further processed to determine whether it is a personal information file by executing a process for determining whether or not there is regularity (the process of the first embodiment). it can.

また画像情報と文字情報とが一つのファイルに含まれており、画像情報については顔画像(個人情報としての顔画像)であるかの判定処理、文字情報については個人情報であるかの判定処理を実行しても良い。この場合、顔画像情報として判定した画像情報、個人情報であると判定した文字情報について、規則性を有するかの判定処理(実施例1の処理)を実行することで、個人情報ファイルであるかの判定処理を行うこともできる。   In addition, image information and character information are included in one file, and a process for determining whether the image information is a face image (a face image as personal information), a process for determining whether the character information is personal information May be executed. In this case, the image information determined as face image information and the character information determined to be personal information are subjected to a determination process for determining whether they have regularity (the process of the first embodiment). The determination process can also be performed.

なおバイオメトリクス情報としては、顔画像のほかに、指紋情報、掌紋情報、声紋情報、虹彩情報、静脈のパターン情報などいかなる情報であっても上記と同様の処理を実施することができるが、顔画像情報の場合には、誰でもが容易に視認することで認識することが可能なきわめて重要な情報であるので、特に顕著な技術的効果を発揮する。   The biometric information can be processed in the same manner as described above for any information such as fingerprint information, palm print information, voice print information, iris information, vein pattern information in addition to a face image. In the case of image information, since it is extremely important information that can be easily recognized by anyone, it exhibits a particularly remarkable technical effect.

上述の各実施例では一台のコンピュータ端末において個人情報ファイル判定システム1の処理が実行される場合を説明したが、これらの機能が複数のコンピュータ端末やサーバに分散していても良い。例えばファイル記憶部2はファイルサーバに備えられており、個人情報ファイル判定部3、制御処理部4が所定の管理サーバに備えられていても良い。   In each of the above-described embodiments, the case where the processing of the personal information file determination system 1 is executed in one computer terminal has been described. However, these functions may be distributed to a plurality of computer terminals and servers. For example, the file storage unit 2 may be provided in a file server, and the personal information file determination unit 3 and the control processing unit 4 may be provided in a predetermined management server.

各機能の分散配置のバリエーションには様々なパターンがあり、如何なる配置形態であっても良い。分散配置の場合、コンピュータ端末における処理の際に、ほかのコンピュータ端末やサーバの各機能を利用する場合にはその問い合わせを当該ほかのコンピュータ端末やサーバに対して行い、その結果を当該コンピュータ端末における処理に用いる。そしてその処理結果をコンピュータ端末で実行することとなる。   There are various patterns of distributed arrangement variations of each function, and any arrangement form may be used. In the case of distributed arrangement, when using the functions of another computer terminal or server during processing at the computer terminal, the inquiry is made to the other computer terminal or server, and the result is sent to the computer terminal. Used for processing. Then, the processing result is executed on the computer terminal.

本発明の個人情報ファイル判定システム1によって、個人情報を大量に含み、名簿や顧客情報などの個人情報ファイルだけを、コンピュータ端末に記憶するファイルから特定することが可能となる。一般的に、名簿や顧客情報として使用されるファイルには、氏名、住所、電話番号など、様々な種別のデータが含まれている。そのような場合、本発明の個人情報ファイル判定システム1を用いることによって、従来よりも精度良く、個人情報のファイルとして判定することができる。
According to the personal information file determination system 1 of the present invention, it is possible to specify a personal information file containing a large amount of personal information, such as a name list and customer information, from files stored in a computer terminal. In general, a file used as a name list or customer information includes various types of data such as name, address, and telephone number. In such a case, by using the personal information file determination system 1 of the present invention, it can be determined as a file of personal information with higher accuracy than before.

本発明のシステム構成の一例の概念図である。It is a conceptual diagram of an example of the system configuration | structure of this invention. コンピュータ端末のハードウェア構成の一例の概念図である。It is a conceptual diagram of an example of the hardware constitutions of a computer terminal. 本発明の処理プロセスの一例を示すフローチャートである。It is a flowchart which shows an example of the processing process of this invention. 個人情報ファイルの一例を模式的に示す図である。It is a figure which shows an example of a personal information file typically. 周期性の判定方法の一例を模式的に示す図である。It is a figure which shows typically an example of the determination method of periodicity. 判定した個人情報について、項目ごとにコード化したことを模式的に示す図である。It is a figure which shows typically having encoded the determined personal information for every item. 第四の周期性の判定方法における処理を示す図である。It is a figure which shows the process in the determination method of the 4th periodicity. 図7からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図8からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図9からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 周期性を判定した状態を模式的に示す図である。It is a figure which shows typically the state which determined periodicity. 判定した個人情報について、項目ごとにコード化したことを模式的に示す図である。It is a figure which shows typically having encoded the determined personal information for every item. 第五の周期性の判定方法における処理を示す図である。It is a figure which shows the process in the determination method of the 5th periodicity. 図13からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図14からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図15からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 判定した個人情報について、項目ごとにコード化したことを模式的に示す図である。It is a figure which shows typically having encoded the determined personal information for every item. 第六の周期性の判定方法における処理を示す図である。It is a figure which shows the process in the determination method of the 6th periodicity. 図18からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図19からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 図20からデータをシフトした状態を模式的に示す図である。It is a figure which shows typically the state which shifted the data from FIG. 名簿ファイルの一例である。It is an example of a name list file. 文書ファイルの一例である。It is an example of a document file. 名簿ファイルに対して個人情報ファイルであるかの判定処理を実行した場合を模式的に示す図である。It is a figure which shows typically the case where the determination process whether it is a personal information file is performed with respect to the name list file. 文書ファイルに対して個人情報ファイルであるかの判定処理を実行した場合を模式的に示す図である。It is a figure which shows typically the case where the determination process whether it is a personal information file is performed with respect to the document file. 第三の周期性の判定方法における処理を示す図である。It is a figure which shows the process in the determination method of the 3rd periodicity.

符号の説明Explanation of symbols

1:個人情報ファイル判定システム
2:ファイル記憶部
3:個人情報ファイル判定部
31:文字情報抽出部
32:個人情報判定部
33:規則性判定部
34:ファイル判定部
4:制御処理部
20:演算装置
21:記憶装置
22:表示装置
23:入力装置
24:通信装置
1: Personal information file determination system 2: File storage unit 3: Personal information file determination unit 31: Character information extraction unit 32: Personal information determination unit 33: Regularity determination unit 34: File determination unit 4: Control processing unit 20: Calculation Device 21: Storage device 22: Display device 23: Input device 24: Communication device

Claims (8)

ファイルが個人情報ファイルであるかを判定する個人情報ファイル判定システムであって、
前記個人情報ファイル判定システムは、
処理対象となったファイルからそこに含まれている情報を抽出し、抽出した情報が個人情報であるかを判定し、前記個人情報であると判定した各情報について規則性があるか否かを判定することで、前記処理対象となったファイルが個人情報ファイルであるかを判定する個人情報ファイル判定部と、
を有することを特徴とする個人情報ファイル判定システム。
A personal information file determination system for determining whether a file is a personal information file,
The personal information file determination system includes:
Extract the information contained in the file to be processed, determine whether the extracted information is personal information, and whether each information determined to be personal information has regularity A personal information file determination unit for determining whether the file to be processed is a personal information file by determining;
A personal information file determination system characterized by comprising:
ファイルが個人情報ファイルであるかを判定する個人情報ファイル判定システムであって、
前記個人情報ファイル判定システムは、
処理対象となったファイルから文字情報を抽出する文字情報抽出部と、
前記抽出した各文字情報について、予め定められた配列条件を備えるかを判定することにより前記抽出した文字情報のうち、個人情報である文字情報を判定する個人情報判定部と、
前記個人情報であると判定した各文字情報の配列が規則性を有するかを判定する規則性判定部と、
前記規則性判定部において前記個人情報であると判定した各文字情報の配列が規則性を有すると判定した場合に、前記処理対象となったファイルを個人情報ファイルとして判定するファイル判定部と、
前記判定結果に基づいて制御処理を実行する制御処理部と、
を有することを特徴とする個人情報ファイル判定システム。
A personal information file determination system for determining whether a file is a personal information file,
The personal information file determination system includes:
A character information extraction unit that extracts character information from the file to be processed;
A personal information determination unit that determines character information that is personal information among the extracted character information by determining whether or not the extracted character information has a predetermined arrangement condition.
A regularity determination unit that determines whether the arrangement of each character information determined to be personal information has regularity;
A file determination unit that determines the file to be processed as a personal information file when it is determined that the arrangement of each character information determined to be the personal information in the regularity determination unit has regularity;
A control processing unit that executes control processing based on the determination result;
A personal information file determination system characterized by comprising:
前記規則性判定部は、
前記個人情報であると判定した各文字情報の配列について、行方向及び/または列方向に対して、各文字情報がどの項目の個人情報に該当するかを判定し、
行方向及び/または列方向に、同一種類の項目の個人情報が一定割合以上含まれていると判定した場合に、規則性を有すると判定する、
ことを特徴とする請求項2に記載の個人情報ファイル判定システム。
The regularity determining unit includes:
For each character information array determined to be personal information, determine which item of personal information each character information corresponds to the row direction and / or column direction,
When it is determined that the personal information of the same type of item is included in a certain percentage or more in the row direction and / or the column direction, it is determined to have regularity.
The personal information file determination system according to claim 2.
前記規則性判定部は、
前記個人情報であると判定した各文字情報の配列について、所定の記憶領域に予め記憶されている、規則性のパターン辞書における個人情報の項目の配列パターンと比較し、
前記各文字情報の個人情報の項目の配列と前記パターン辞書の項目の配列パターンとの一致率を算出し、
前記一致率が最も高く、且つ前記一致率が所定値以下または所定値未満ではない場合には、前記最も高い一致率の配列パターンの規則性を有する、と判定する、
ことを特徴とする請求項2に記載の個人情報ファイル判定システム。
The regularity determining unit includes:
For the arrangement of each character information determined to be the personal information, compared with the arrangement pattern of the item of personal information in the regular pattern dictionary stored in advance in a predetermined storage area,
Calculating the matching rate between the array of items of personal information of each character information and the array pattern of items of the pattern dictionary;
When the matching rate is the highest and the matching rate is not less than or less than a predetermined value or less than a predetermined value, it is determined that the arrangement pattern has regularity of the highest matching rate.
The personal information file determination system according to claim 2.
前記規則性判定部は、
前記個人情報であると判定した各文字情報について第1のデータ列とし、
前記第1のデータ列に対して、予め定められた項目を基準項目として設定するとともに周期性の仮サイズを設定し、
前記第1のデータ列を前記基準項目までシフトし、前記第1のデータ列の前記基準項目から前記周期性の仮サイズだけシフトさせた第2のデータ列を設定し、
前記第1のデータ列の先頭項目の属性情報と前記第2のデータ列の先頭項目の属性情報とが一致するかを判定し、
一致しない場合には、前記第1のデータ列または前記第2のデータ列を一つシフトし、
一致する場合には、前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報とが一致するかを順に判定し、一致しない場合には、前記第2のデータ列を一つシフトし、一致する場合には、前記周期性の仮サイズと前記第2のデータ列のシフト回数とを合計することにより周期性のサイズを算出し、前記算出した周期性のサイズの規則性を有すると判定する、
ことを特徴とする請求項2に記載の個人情報ファイル判定システム。
The regularity determining unit includes:
A first data string for each piece of character information determined to be personal information,
For the first data string, set a predetermined item as a reference item and set a temporary size of periodicity,
Shifting the first data string to the reference item, and setting a second data string shifted from the reference item of the first data string by the temporary size of the periodicity,
Determining whether the attribute information of the first item of the first data sequence matches the attribute information of the first item of the second data sequence;
If they do not match, shift the first data string or the second data string by one,
If they match, it is determined in order whether the attribute information of the item of the first data string and the attribute information of the item of the second data string match. If they do not match, the second data string Is shifted by one, the periodicity size is calculated by summing the temporary size of the periodicity and the number of shifts of the second data sequence, and the calculated periodicity size It is determined to have regularity,
The personal information file determination system according to claim 2.
前記規則性判定部は、
前記個人情報であると判定した各文字情報について所定位置で区切ることにより、第1のデータ列と第2のデータ列とを設定し、
前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報との一致率を算出し、
前記算出した一致率と所定値とを比較し、
前記算出した一致率が所定値以下または所定値未満であれば、前記第1のデータ列または第2のデータ列を一つシフトして再度、前記第1のデータ列の項目の属性情報と第2のデータ列の項目の属性情報との一致率を算出し、
前記算出した一致率が所定値以上または所定値より大きければ、前記個人情報であると判定した各文字情報のデータ列について規則性を有すると判定する、
ことを特徴とする請求項2に記載の個人情報ファイル判定システム。
The regularity determining unit includes:
A first data string and a second data string are set by dividing each character information determined to be the personal information at a predetermined position,
Calculating a matching rate between the attribute information of the item of the first data string and the attribute information of the item of the second data string;
Compare the calculated match rate with a predetermined value,
If the calculated coincidence rate is equal to or less than a predetermined value or less than a predetermined value, the first data string or the second data string is shifted by one, and the attribute information of the item of the first data string and the first Calculate the coincidence rate with the attribute information of the item of the data string of 2,
If the calculated match rate is equal to or greater than a predetermined value or greater than a predetermined value, it is determined that the data string of each character information determined to be the personal information has regularity.
The personal information file determination system according to claim 2.
前記規則性判定部は、
前記個人情報であると判定した各文字情報のデータ列から、所定範囲のデータの項目を抽出し、
前記抽出したデータの項目と、前記データ列の項目とを逐次比較し、
一致した回数が所定回数以上または所定回数より多ければ、前記個人情報であると判定した各文字情報のデータ列について規則性を有すると判定する、
ことを特徴とする請求項2に記載の個人情報ファイル判定システム。
The regularity determining unit includes:
Extracting data items in a predetermined range from the data string of each character information determined to be the personal information,
Sequentially comparing the extracted data item and the data string item;
If the number of matches is greater than or equal to the predetermined number of times or greater than the predetermined number of times, it is determined that the data string of each character information determined to be the personal information has regularity.
The personal information file determination system according to claim 2.
コンピュータ端末を、
所定の記憶領域から処理対象となったファイルを抽出し、前記抽出したファイルに含まれている情報を抽出し、抽出した情報が個人情報であるかを判定し、前記個人情報であると判定した各情報について規則性があるか否かを判定することで、前記処理対象となったファイルが個人情報ファイルであるかを判定する個人情報ファイル判定部、
前記判定結果に基づいて制御処理を実行する制御処理部、
として機能させることを特徴とする個人情報ファイル判定プログラム。
Computer terminal
A file to be processed is extracted from a predetermined storage area, information contained in the extracted file is extracted, it is determined whether the extracted information is personal information, and the personal information is determined. A personal information file determination unit that determines whether or not the file to be processed is a personal information file by determining whether each information has regularity;
A control processing unit that executes control processing based on the determination result;
A personal information file determination program that functions as a personal information file.
JP2008042017A 2008-02-22 2008-02-22 Personal information file determination system Active JP4272690B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008042017A JP4272690B1 (en) 2008-02-22 2008-02-22 Personal information file determination system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008042017A JP4272690B1 (en) 2008-02-22 2008-02-22 Personal information file determination system

Publications (2)

Publication Number Publication Date
JP4272690B1 JP4272690B1 (en) 2009-06-03
JP2009199461A true JP2009199461A (en) 2009-09-03

Family

ID=40821521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008042017A Active JP4272690B1 (en) 2008-02-22 2008-02-22 Personal information file determination system

Country Status (1)

Country Link
JP (1) JP4272690B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124828A (en) * 2017-02-01 2018-08-09 日本電信電話株式会社 Table data analysis program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7428917B2 (en) * 2021-12-27 2024-02-07 キヤノンマーケティングジャパン株式会社 Information processing device, information processing method, program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124828A (en) * 2017-02-01 2018-08-09 日本電信電話株式会社 Table data analysis program

Also Published As

Publication number Publication date
JP4272690B1 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
JP4701292B2 (en) Computer system, method and computer program for creating term dictionary from specific expressions or technical terms contained in text data
US7584188B2 (en) System and method for searching and matching data having ideogrammatic content
US8577155B2 (en) System and method for duplicate text recognition
US8892579B2 (en) Method and system of data extraction from a portable document format file
US9025890B2 (en) Information classification device, information classification method, and information classification program
KR101511656B1 (en) Ascribing actionable attributes to data that describes a personal identity
CN108280197B (en) Method and system for identifying homologous binary file
US20210224323A1 (en) Learning system, learning method, and program
US9824139B2 (en) Method of searching for integrated multilingual consonant pattern, method of creating character input unit for inputting consonants, and apparatus for the same
JP5731361B2 (en) Character string conversion method and character string conversion program
JP4272690B1 (en) Personal information file determination system
CN106997320A (en) Code display methods and device during code review
JP2017224240A (en) Table data search apparatus, table data search method, and table data search program
Howard et al. Phonetic spelling algorithm implementations for R
US20200226162A1 (en) Automated Reporting System
CN112149402B (en) Document matching method, device, electronic equipment and computer readable storage medium
JP6604207B2 (en) Relation information generation method, apparatus, and program
CN115690821A (en) Intelligent electronic file cataloging method and computer equipment
JP2011198285A (en) Document processing system and program
JPWO2016098739A1 (en) Information extraction apparatus, information extraction method, and information extraction program
Lovinger et al. Scrubbing the web for association rules: An application in predictive text
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
JP4922030B2 (en) Character string search apparatus, method and program
JP2019028788A (en) Secret word specifying apparatus, secret word specifying method, and secret word specifying program
JP6841322B2 (en) Index generator, index generator, index generator, search program, search device and search method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4272690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250