KR100771311B1 - Method for blocking spam mail in private information based and method for searching private information thereof - Google Patents

Method for blocking spam mail in private information based and method for searching private information thereof Download PDF

Info

Publication number
KR100771311B1
KR100771311B1 KR1020060056980A KR20060056980A KR100771311B1 KR 100771311 B1 KR100771311 B1 KR 100771311B1 KR 1020060056980 A KR1020060056980 A KR 1020060056980A KR 20060056980 A KR20060056980 A KR 20060056980A KR 100771311 B1 KR100771311 B1 KR 100771311B1
Authority
KR
South Korea
Prior art keywords
personal information
keyword
mail
byte
information area
Prior art date
Application number
KR1020060056980A
Other languages
Korean (ko)
Inventor
박노경
진현준
서상진
Original Assignee
호서대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 호서대학교 산학협력단 filed Critical 호서대학교 산학협력단
Priority to KR1020060056980A priority Critical patent/KR100771311B1/en
Application granted granted Critical
Publication of KR100771311B1 publication Critical patent/KR100771311B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

A method for blocking spam mails based on personal information and a personal information searching method thereof are provided to improve personal information search speed and apply a personal information-based spam mail blocking method in a general embedded system by searching the personal information through byte pattern comparison, not character string pattern comparison. A starting node and working nodes are defined/initialized in a personal information area of a personal information store box(S302). A keyword extracted through a context analysis of a received mail is copied(S303). Personal information items stored in the personal information area are loaded(S304). It is searched whether the keyword having the same byte pattern matched with the byte pattern of the copied keyword is found(S306). If the matched byte pattern is found, weight corresponding to the extracted keyword is assigned(S307).

Description

개인정보 기반의 스팸 메일 차단 방법 및 그 개인 정보 검색방법{METHOD FOR BLOCKING SPAM MAIL IN PRIVATE INFORMATION BASED AND METHOD FOR SEARCHING PRIVATE INFORMATION THEREOF}METHODO FOR BLOCKING SPAM MAIL IN PRIVATE INFORMATION BASED AND METHOD FOR SEARCHING PRIVATE INFORMATION THEREOF}

도 1은 종래의 스팸 메일 차단 시스템의 구성도.1 is a block diagram of a conventional spam mail blocking system.

도 2는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 구성도.2 is a block diagram of a system for blocking spam based on personal information according to an embodiment of the present invention.

도 3은 도 2의 스팸 메일 검사부의 세부 구성도.3 is a detailed configuration diagram of the spam mail inspection unit of FIG. 2.

도 4는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 방법을 나타내는 순서도.Figure 4 is a flow chart illustrating a method for blocking spam based on personal information according to an embodiment of the present invention.

도 5는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 개인 정보 추출 방법을 나타내는 순서도.5 is a flowchart illustrating a method for extracting personal information of a system for blocking spam mail based on personal information according to an embodiment of the present invention.

*** 도면의 주요 부분에 대한 부호의 설명 ****** Explanation of symbols for the main parts of the drawing ***

2 : 메일 수신함 4 : 스팸 메일 필터부2: mail inbox 4: spam mail filter unit

6 : 스팸 메일 수신함 8 : 스팸 정보 저장부6: spam inbox 8: spam information storage unit

100 : 스팸 메일 차단부 200 : 스팸 메일 보관함100: spam blocker 200: spam mail box

300 : 정상 메일 보관함 400 : 스팸 메일 검색부300: normal mail storage box 400: spam mail search unit

401 : 구문 문석부 403 : 임베디드 모듈401: Syntax 403: embedded module

402 : 개인정보 후보자키 임시 저장 테이블402: Temporary storage table for personal information candidate key

404 : 판정 모듈 405: 제어부404: Decision module 405: control unit

406 : 개인정보 보관함406: Personal Information Box

본 발명은 개인정보 기반의 스팸 메일 차단 방법 및 그 개인 정보 검색방법에 관한 것으로서, 보다 상세하게는 개인 정보를 이용한 스팸 메일 차단 서비스 제공 시에, 개인 정보 검색을 위해 메일 내용 중의 명사형 키워드의 바이트 패턴과 미리 저장해둔 개인 정보 키워드의 바이트 패턴을 비교함으로써 그 검색 효율을 향상시키는 기술이다.The present invention relates to a spam mail blocking method based on personal information and a method for searching the personal information, and more particularly, when providing a spam mail blocking service using personal information, a byte pattern of a noun keyword in a mail content for searching for personal information. And a technique of improving the retrieval efficiency by comparing the byte pattern of the previously stored personal information keyword.

최근 인터넷과 같은 통신망이 발달하면서 이를 이용한 상업적, 비상업적 서비스가 기하급수적으로 증가하고 있으며, 이 중에서 전자 우편 서비스(E-Mail service)는 가장 널리 사용되고 있는 서비스이다. 이러한 전자 우편 서비스가 널리 이용됨에 따라 전자 우편 서비스를 이용하여 자사의 제품을 홍보하려는 광고성 스팸 메일이 급증하고 있어 전자 우편 서비스를 이용하는 사용자들의 불만이 증가하고 있고 특히, 불법 음란 스팸 메일은 성인뿐만 아니라 아동 및 청소년에게도 무차별적으로 전송되어 사회문제로까지 확산 되고 있다.Recently, with the development of communication networks such as the Internet, commercial and non-commercial services using them are increasing exponentially. Among these, the E-mail service is the most widely used service. Due to the widespread use of such e-mail services, there has been a surge in advertising spam that uses e-mail services to promote their products. In particular, users of e-mail services are increasing complaints. It is transmitted indiscriminately to children and adolescents and is spreading to social issues.

일반적으로, 스팸 메일은 SMTP(Simple Mail Transfer Protocol), EML(Enveloped Message) 등과 같은 메일 송신 프로토콜을 통해 발송되며, 이러한 메일 송신 프로토콜을 이용한 스팸 메일의 발송유형은 크게 나열(Serialization)발송 유형, HTML Cloaking발송 유형, 그래피컬(Graphical)발송 유형, 오써엔코딩(Other Encoding)발송유형, 개인화(Personalized)발송유형, 씬텍스 노이즈(Syntax Noise)발송 유형 등으로 구분된다.In general, spam mail is sent through mail sending protocols such as Simple Mail Transfer Protocol (SMTP), Enveloped Message (EML), and the like, and types of spam mail using these mail sending protocols are listed in large order (Serialization) sending type, HTML It is divided into Cloaking type, Graphical type, Other Encoding type, Personalized type, and Syntax Noise type.

나열(Serialization)발송 유형은 스팸 메일에 주어진 문자열 사이에 유일한 값들을 첨부하여 발송하는 메일발송기법이다. 이러한 나열(Serialization)발송 유형은 스팸 메일의 해쉬정보를 저장하여 스팸 메일 차단을 수행하는 체크썸 기술이 무효하므로, 정규식과 필터링 스크립트 등을 이용하여 수신된 스팸 메일을 구별할 수 있는 정교한 필터링 스크립트를 적용하여 차단될 수 있다.The serialization sending type is a mail sending technique that attaches unique values between the strings given to spam mail. This type of serialization is invalid because the checksum technique of blocking spam mail by storing hash information of spam mail is invalid. Therefore, a sophisticated filtering script that can distinguish received spam mail using regular expressions and filtering scripts, etc. Can be blocked by application.

그래피컬(Graphical) 발송 유형은 부가 정보 없이 스팸 내용을 이미지로 작성하여 전송하는 스팸 메일 발송 유형이다. 이러한 스팸 내용이 특정 이미지 포맷으로 구성되어 있는 경우 우선 이미지 패턴 작업을 수행하여 이미지 내에 URL(uniform resource locator), 번호 등의 정보를 추출한 후, 추출된 정보를 조합하여 필터링 스크립트를 적용함으로써 스팸 메일을 차단할 수 있다.Graphical sending type is a spam mail sending type that creates and sends spam content as an image without additional information. If the spam content is composed of a specific image format, first perform image patterning to extract information such as uniform resource locator (URL), number, etc. within the image, and then combine the extracted information to apply a filtering script to prevent spam. You can block.

오써엔코딩(Other Encoding) 발송 유형은 기존의 메일 포맷이 아닌 비 표준 메일 포맷으로 인코딩하여 발송하는 스팸 메일 발송 유형이다. 이러한 발송 유형은 수신메일의 인코딩 타입을 분석 및 추출하여 디코딩하여 처리하거나 자체 디코더를 통해 메일을 디코딩한 후 스팸 메일 차단 기술을 적용할 수 있다.The Other Encoding sending type is a spam mailing type that is encoded and sent in a non-standard mail format rather than a conventional mail format. This type of sending can be processed by analyzing, extracting and decoding the encoding type of the received mail, or applying the spam mail blocking technology after decoding the mail through its decoder.

개인화(Personalized) 발송 유형은 특수 개인이 자신만의 고유한 포맷으로 스팸정보를 생성하여 발송하는 유형을 의미한다. 이러한 개별적인 고유 스팸 유형 은 스팸 메일 내에 본문의 패턴 분석을 수행하여 차단한다.Personalized delivery type means that a special individual generates and sends spam information in its own format. These individual types of spam are blocked by performing a pattern analysis of the body within the spam mail.

씬텍스 노이즈(Syntax Noise) 발송 유형은 메일 내용 중 무의미한 기호나 문자를 이용하여 스팸 메일을 발송하는 유형을 의미한다. 문자로 구성된 스팸 연상 발송 유형은 다른 문자열 기반의 스팸 메일 차단 기술과 유사하게 정규식이나 특수 문자, 혹은 무의미한 기호 등을 삭제하여 스팸 유형화 직전의 원문으로 복원하여 스팸 메일 차단을 위한 정규식을 적용한다.The Syntax Noise sending type refers to a type of sending spam mails using meaningless symbols or characters in the mail contents. Similar to other string-based spam mail blocking technology, the spam association type consisting of letters is deleted by regular expressions, special characters, or meaningless symbols, and restored to the original text immediately before spam typing.

이와 같이 스팸 메일의 발송 유형의 다양한 형태로 스팸 정보 전달을 위한 포맷이 동적으로 생성된다. 그러므로 기존의 스팸 메일 차단 기술은 최소시간에 동적인 발송 유형과 정적인 관례적 처리 특성을 고려하여 적절한 차단기술의 효과적 적용을 우선시한다.As such, a format for delivering spam information is dynamically generated in various forms of spam mail delivery types. Therefore, the existing spam mail blocking technology prioritizes the effective application of appropriate blocking technology in consideration of the dynamic sending type and the static conventional processing characteristics in the minimum time.

기존의 스팸 메일 차단 방식은 상품 정보 영역에 특정 정보를 계층적 데이터 풀로 구성하여 스팸 메일을 차단하며, 도 1을 참조하여 종래의 스팸 메일 차단방법을 보다 구체적으로 설명하기로 한다.The conventional spam mail blocking method blocks spam mail by configuring specific information in a hierarchical data pool in the product information area, and the conventional spam mail blocking method will be described in more detail with reference to FIG. 1.

도 1을 참조하면, 종래의 스팸 메일 차단방법은 메일 수신함(2)에 수신된 메일을 스팸 메일 필터부(4)를 통하여 스팸 메일과 일반메일로 구분하여 스팸 메일은 스팸 메일 수신함(6)에 보관되고, 그렇지 않은 일반 메일은 메일 수신자에게 전달된다.Referring to FIG. 1, the conventional spam mail blocking method divides the mail received in the mail inbox 2 into a spam mail and a general mail through the spam mail filter 4, and the spam mail is received in the spam mail inbox 6. Archived, otherwise unsolicited mail is delivered to the mail recipient.

이처럼 기존의 상품 정보를 기반으로 한 스팸 메일 차단 필터링은 교차필터링 작업 수행시 서로 다른 필터링 특성에 기인되어 정상 메일을 스팸 메일로 오인하거나, 혹은 스팸 메일을 정상 메일로 간주하여 오판하는 경우가 발생한다. 이처 럼 스팸 메일로 오인된 정상 메일을 폴스 포지티브(FALSE POSITIVE) 메일이라 한다.As mentioned above, spam mail filtering based on existing product information is misinterpreted as a normal mail or spam mail as a normal mail due to different filtering characteristics when performing cross filtering. . Such a normal mail mistaken for spam mail is called a FALSE POSITIVE mail.

폴스 포지티브(FALSE POSITIVE) 메일이 발생하는 원인은 주로 스팸 메일의 유형에 대한 대응 필터링의 판정 알고리즘의 특성적 한계에 기인 되며, 그 중 하나는 스패머의 스팸 메일 형식의 변화를 들 수 있다. 즉, 스패머가 필터링 회피를 위해 문자 기반의 끼워넣기 포맷의 스팸 메일을 생성하면서 이후 다양한 스팸 메일 포맷이 출현하였다. The cause of FALSE POSITIVE mails is mainly due to the characteristic limitations of the decision-making algorithm of correspondence filtering for the types of spam mails, one of which is the change of spammers' spam mail format. That is, while spammers generate spam mails of character-based embedding format to avoid filtering, various spam mail formats have appeared.

스팸 메일 형식의 변화는 크게 내용 변형 스팸 메일과 형식 변형 스팸 메일로 구분할 수 있다. 내용 변형 스팸 메일 형식은 키워드를 구성하는 문자 사이에 다양한 부가 문자를 추가하여 자연어 구문 검색을 막기 위한 방법이고, 형식 변형 스팸 메일 형식은 기존의 스팸 메일의 유형을 세밀히 분석해서 대응 가능한 필터링 기법을 순차 적용하여 변환된 형식을 제거하는 방식이다.Changes in spam format can be largely divided into content-modified spam and format-modified spam. The content variation spam mail format is a method to prevent natural language phrase search by adding various additional characters between the characters constituting the keyword, and the format variation spam mail format analyzes the existing types of spam mails in detail and processes corresponding filtering techniques. Applied to remove the converted format.

이와 같이, 종래에는 스팸정보 저장부(8)에 저장되어 있는 스팸정보만을 이용하여 스팸 메일을 차단하므로, 상술한 바와 같이 스패머에 의해 스팸 메일 형식의 변화에 따른 새로운 형식의 스팸 메일을 차단하지 못하거나 정상메일을 스팸 메일로 오인하는 경우가 많이 발생하였고, 스팸 메일 형식 변화에 대응하여 스팸 정보를 업데이트하더라도 그 발생속도와 양이 엄청나 그에 대응하기가 어렵고 그 발생속도와 양의 증가로 인해 시스템의 부하도 커지는 문제점이 있다.As described above, since the spam mail is blocked by using only the spam information stored in the spam information storage unit 8, as described above, the spammer cannot block a new type of spam mail according to the change of the spam mail format. In many cases, the normal mail is mistaken for spam mail, and even if the spam information is updated in response to the change in the format of the spam mail, the speed and amount of the spam mail are huge or difficult to cope with, and due to the increase in the speed and amount of the system, There is also a problem that the load increases.

또한, 종래의 스팸 메일 차단 방식은 기본적으로 문자열을 비교하는 방식을 사용하는데, 이러한 문자열 비교 방식은 수신될 메일 내에 비교될 문자열과 비교 대상이 되는 문자열을 디코딩해야 하므로 디코딩을 위한 별도의 소프트웨어 모듈과 하드웨어 모듈이 필요하게 되어 시스템이 복잡하고 비용 소모가 큰 문제점이 있었다.In addition, the conventional spam mail blocking method basically uses a method of comparing strings. Since this string comparison method needs to decode a string to be compared with a string to be compared in a received mail, a separate software module for decoding and There is a problem that the system is complicated and expensive due to the need for a hardware module.

또한, 종래의 문자열 비교 방식은 윈도우즈 2000 서버 운영체제에서 개발할때는 MS-SQL(데이터베이스) 소프트웨어 제품을 이용하여 검색하고자 하는 문자열을 SQL을 이용하여 검색하였으나, MS-SQL(데이터베이스) 소프트웨어를 지원하지 않는 임베디드(embedded)장치에서는 불가능한 문제점이 있었다.In addition, the conventional character string comparison method uses MS-SQL (database) software products to develop a character string comparison using SQL. However, the string comparison method does not support MS-SQL (database) software. There was an impossible problem with the device.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 개인정보를 문자열이 아닌 바이트 패턴 비교를 통해 검색하도록 함으로써, 개인 정보 검색 속도를 향상시키고, 범용 임베디드 시스템에서도 개인 정보 기반의 스팸 메일 차단 방법을 적용할 수 있도록 하는데 있다.An object of the present invention for solving the above problems is to improve the speed of searching for personal information by searching the personal information by comparing the byte pattern rather than a string, and a method for blocking spam based on personal information in a general-purpose embedded system. To make it applicable.

상기 과제를 달성하기 위한 본 발명에 따른 개인 정보 항목 검색방법은,개인 정보 보관함 내의 개인 정보 영역의 시작 노드 및 작업 노드를 정의하고 초기화하는 제 1과정과, 수신된 메일의 구문분석을 통해 추출된 키워드를 복사하는 제 2 과정과, 상기 개인 정보 영역 내에 개인 정보 항목들을 저장하는 제 3 과정과, 상기 개인 정보 영역 내에 상기 복사한 키워드의 바이트 패턴과 일치하는 바이트 패턴의 키워드가 존재하는 지를 검색하는 제 4과정을 포함하는 것을 특징으로 한다.The personal information item retrieval method according to the present invention for achieving the above object, the first step of defining and initializing the start node and the work node of the personal information area in the personal information library, and extracted through the parsing of the received mail A second process of copying a keyword, a third process of storing personal information items in the personal information area, and searching for whether a keyword of a byte pattern matching the byte pattern of the copied keyword exists in the personal information area; And a fourth process.

또한, 본 발명에 따른 개인 정보 기반의 스팸 메일 차단 방법은, 스팸 메일 로 판정된 메일을 복사하여 구문 분석을 수행하는 제 1 과정과, 상기 구문 분석을 통해 구분된 명사의 키워드를 추출하여 저장하는 제 2 과정과, 상기 키워드의 바이트 패턴과 개인 정보 보관함에 저장되어 있는 개인 정보 키워드들의 바이트 패턴을 비교하여 그 결과에 따라 가중치를 부여하여, 상기 가중치가 일정치 이상이면 상기 스팸 메일로 판정된 메일이 정상메일인 것으로 판정하는 제 3 과정을 포함하는 것을 특징으로 한다.In addition, the spam information blocking method based on personal information according to the present invention, the first process of performing a parsing by copying the mail determined as spam mail, and extracting and storing keywords of nouns separated through the parsing Comparing the byte pattern of the keyword with the byte pattern of the personal information keywords stored in the personal information storage box and assigning weights according to the result; if the weight is equal to or greater than a predetermined value, the mail determined as the spam mail And a third step of determining that this is a normal mail.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하면 다음과 같다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 구성도이다. 2 is a block diagram of a system for blocking spam based on personal information according to an embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 스팸 메일 차단 시스템은 스팸메일 차단부(100), 스팸 메일 보관함(200), 정상 메일 보관함(300), 및 스팸 메일 검사부(400)를 구비한다.2, the spam mail blocking system according to the present invention includes a spam mail blocking unit 100, a spam mail storage box 200, a normal mail storage box 300, and a spam mail inspection unit 400.

스팸메일 차단부(100)는 외부로부터 메일을 수신하고 수신한 메일들에 대해 스팸정보를 이용하여 스팸 메일 여부를 판정하여 수신한 메일로부터 스팸 메일과 정상메일을 분류한다.The spam mail blocking unit 100 receives the mail from the outside and determines whether the mail is spam by using the spam information on the received mail and classifies the spam mail and the normal mail from the received mail.

스팸 메일 보관함(200)은 스팸메일 차단부(100)에 의해 필터링된 스팸 메일을 저장하고, 정상메일 보관함(300)은 스팸메일 차단부(100)에 의해 필터링된 정상메일을 저장한다.The spam mail box 200 stores the spam mail filtered by the spam mail blocking unit 100, and the normal mail bin 300 stores the normal mail filtered by the spam mail blocking unit 100.

스팸 메일 검사부(400)는 스팸 메일 보관함(200)에 저장되어 있는 스팸 메일 을 주기적으로 검사하여 폴스 포지티브(FALSE POSITIVE) 메일이 발견되면 이를 정상 메일 보관함(300)으로 이동시킨다. 즉, 스팸 메일 검사부(400)는 내부의 개인정보 보관함로부터 개인정보를 검색하여, 개인정보 기반으로 스팸 메일을 검사하며, 특히, 스팸 메일 검사부(400)는 문자열 비교가 아닌 키워드의 바이트 패턴을 비교하는 방식으로 개인정보 검색을 함으로써 개인 정보 검색 속도가 빠르다. 이러한 스팸 메일 검사부(400)는 도 3 과 같은 세부 구성을 갖는다.The spam mail inspecting unit 400 periodically checks the spam mail stored in the spam mail storage box 200 and moves it to the normal mail storage box 300 when a false positive mail is found. That is, the spam mail checking unit 400 searches for personal information from the internal personal information storage box, and scans spam mail based on the personal information. In particular, the spam mail checking unit 400 compares byte patterns of keywords rather than string comparisons. By searching personal information in such a way that the personal information search speed is fast. The spam mail inspection unit 400 has a detailed configuration as shown in FIG.

도 3에 따르면, 스팸 메일 검사부(400)는 구문 분석부(401), 개인정보 후보자키 임시 저장 테이블(402), 임베디드 모듈(403), 및 판정 모듈(404)을 포함하여 구성한다.According to FIG. 3, the spam mail inspection unit 400 includes a syntax analyzer 401, a personal information candidate key temporary storage table 402, an embedded module 403, and a determination module 404.

구문 분석부(401)는 수신된 메일 내용을 행 단위로 구분하여 자연어 파싱을 통해 구문분석을 수행하고 구문분석 결과 중 명사를 추출하여 개인정보 후보자키 임시 저장 테이블(401)로 전달한다. 이때, 자연어 파싱 방식은 수신된 메일 내용 중 단어의 품사(동사, 부사, 접속사, 형용사, 부사, 접속자, 형용사, 명사, 조사)를 구분하는 기술이다. 아래 표 2은 표1의 수신 메일에 대하여 구문 분석부(401)에서 구문을 분석한 예를 나타낸 것이다.The parsing unit 401 divides the received mail content by row, performs parsing through natural language parsing, extracts a noun from the parsing result, and delivers the noun to the personal information candidate key temporary storage table 401. At this time, the natural language parsing method is a technique for distinguishing parts of speech (verb, adverb, conjunction, adjective, adverb, accessor, adjective, noun, survey) from the received mail contents. Table 2 below shows an example of parsing by the parser 401 for the received mail of Table 1.

안녕하세요. 주임님께서 보내신 물품 내역을 잘 받았습니다. A사의 a제품은 이미 시장에서 잘 홍보되고 있습니다. 그러나 본사의 b제품은 A사의 a제품보다 더욱 우수한 성능의 제품입니다. 그래서 본사의 제품이 주임님이 계신 삼성전자의 영업부서에 더 적합할 듯 합니다. 추운날씨에 옥체 보존하십시오. -B사 드림-Hi. I have received the details of the goods you sent. A product of A company is already well promoted in the market. However, our b product is better than A's. So our product is more suitable for the sales department of Samsung Electronics. Keep the roof in cold weather. Dream Company B

상기 표 1은 수신된 메일 내용의 예시를 나타낸다.Table 1 shows an example of received mail contents.

<L1> [동사:안녕하세요] <L2> [명사: 주임][조사:께서][형용사:보내신][명사:물품 내역][조사:을][부사어:잘][동사:받았습니다] <L3> [명사:A사의][주어:a제품은][부사:이미][명사:시장][조사:에서][부사:잘][부사:홍보되고][동사:있습니다] <L4> [접속사:그러나][명사:본사][조사:의][명사:b 제품][조사:은][명사:A사][조사:의][명사:a제품][조사:보다][부사:더욱][부사:우수한][부사:성능의][명사:제품][동사:입니다] <L5> [접속사:그래서][명사:본사][조사:의][명사:제품][조사:이][명사:주임님][조사:이][(수식어구)부사:계신][명사:삼성전자][조사:의][명사:영업부서][조사:에][부사:더][부사:적합할][부사:듯][동사:합니다] <L6> [부사:추운날씨에][목적어:옥체][동사:보존하십시오] <L7> [명사:B사]<L1> [verb: hello] <L2> [noun: chief] [investigator:] [adjective: sent] [noun: item description] [investigation:] [adverb: well] [verb: received] <L3> [Noun: A's] [giver: a product] [adverb: already] [noun: market] [investigation: in] [adverb: well] [adverb: being promoted] [verb: are] <L4> But] [noun: HQ] [investigation: of] [noun: b product] [investigation: silver] [noun: A company] [investigation: of] [noun: a product] [investigation: than] [adverb: more] [Adverb: excellent] [adverb: performance] [noun: product] [verb: is] <L5> [junction: so] [noun: headquarter] [investigation: of] [noun: product] [investigation: this] [ Noun: chief] [survey: yi] [(formula) adverb: outboard] [noun: samsung] [survey: of] [noun: sales department] [survey: e] [adverb: more] [adverb: suitable Hal] [adverb: like] [verb: should] <L6> [adverb: to cold weather] [object: ok] [verb: preserve] <L7> [noun: B]

상기 표 2는 표 1에 대하여 구문분석을 실행한 결과를 나타내는 것으로, 품사와 주어, 목적어를 구분한 결과를 나타낸다.Table 2 shows the results of parsing the Table 1, and shows the results of division of parts and subjects and object words.

개인정보 후보자키 임시 저장 테이블(402)은 구문 분석부(401)로부터 추출된 명사를 수신하여 저장한다. 즉, 표 2의 "주임", "물품내역" "A사", "삼성전자" 등의 명사를 저장한다.The personal information candidate key temporary storage table 402 receives and stores nouns extracted from the parser 401. That is, nouns such as "chief", "article", "company A", and "Samsung Electronics" in Table 2 are stored.

임베디드 모듈(403)은 제어부(405)와 개인 정보 보관함(406)을 구비한다.The embedded module 403 includes a control unit 405 and a personal information storage box 406.

제어부(405)는 개인 정보 후보자키 임시 저장 테이블(402)부터 키워드를 복사하고, 개인 정보 보관함(406)의 정의 및 초기화를 제어하고, 개인 정보 보관함(406)에 복사해온 키워드의 바이트 패턴과 일치하는 개인 정보 키워드의 바이트패턴이 존재하는 지를 판정하여 존재하는 경우 해당 키워드에 맞는 가중치를 부여한다.The controller 405 copies the keywords from the personal information candidate key temporary storage table 402, controls the definition and initialization of the personal information storage box 406, and matches the byte pattern of the keywords copied to the personal information storage box 406. It is determined whether a byte pattern of a personal information keyword exists, and if it exists, a weight corresponding to the keyword is assigned.

개인 정보 보관함(406)은 고객이 등록한 개인의 이름, 나이, 직업, 집주소, 직장주소, 고향, 출신학교, 별명, 및 가족관계 등의 개인 정보를 저장하며, 그 개인 정보의 자료 구조는 아래 표 3과 같이 저장된다. The personal information storage box 406 stores personal information such as the name, age, occupation, home address, work address, hometown, home school, nickname, and family relationship of the individual registered by the customer, and the data structure of the personal information is shown below. It is stored as shown in Table 3.

Figure 112006044646026-pat00001
Figure 112006044646026-pat00001

표 3은 도 3의 개인 정보 보관함(406)에 저장된 개인 정보 자료 구조를 나타낸다. Table 3 shows the personal information data structure stored in the personal information archive 406 of FIG.

개인 정보 영역은 상용 메모리에서 허용할 수 있는 n개 이상 존재할 수 있으며, 저장 내용은 이름, 주소, 직장, 및 직급과 같은 개인 정보를 포함한다. There may be n or more personal information areas allowable in conventional memory, and the stored contents include personal information such as name, address, work, and rank.

개인 정보 영역은 개인 정보 영역 구분자, 개인 정보 포함 영역명, 개인 정보 시작 노드, 및 다음 링크 위치를 포함하고 각각의 구성 항목의 역할은 다음과 같다.The personal information area includes a personal information area separator, a personal information containing area name, a personal information start node, and a next link location, and the role of each configuration item is as follows.

먼저, 개인 정보 영역 구분자는 개인 정보 영역을 구분하기 위한 정수로 표현되며 4 바이트로 구현된다. 개인 정보 포함 영역명은 개인 정보 포함 영역을 표현하기 위한 제목을 포함하며 100바이트로 표현된다. 개인 정보 시작 노드는 개인 정보 항목의 시작 노드 주소정보를 포함하며 4바이트로 표현된다. 다음 링크 위치는 현재 링크와 연결된 다음 링크의 위치 정보를 포함하고 4 바이트로 표현된다.First, the personal information area separator is represented by an integer for distinguishing the personal information area and implemented by 4 bytes. The personal information containing area name includes a title for expressing the personal information containing area and is expressed by 100 bytes. The personal information start node contains the start node address information of the personal information item and is expressed in 4 bytes. The next link position contains position information of the next link connected with the current link and is represented by 4 bytes.

한편, 개인 정보 항목은 개인 정보 구분자, 개인 정보 키워드, 개인 정보 키워드 가중치, 및 다음 링크 위치를 포함하여 구성하며 각각의 구성 항목의 역할은 아래와 같다.Meanwhile, the personal information item includes a personal information separator, a personal information keyword, a personal information keyword weight, and a next link position. The role of each item is as follows.

개인 정보 구분자는 개인정보 보관함 내에서 개인 정보 항목 구분을 위한 유일한 정수값이며 4바이트로 표현되고, 개인 정보 키워드는 비교 대상이 되는 구체적인 문자열로서 개인 정보 항목을 나타내며 100바이트로 표현된다. 개인 정보 키워드 가중치는 개인 정보 항목의 신뢰성을 나타내는 정수값이며 1 바이트로 표현된다. 즉, 개인 정보의 스패머 노출 정도에 따라 개인 정보 키워드 가중치가 부여된다. 예를 들면, 스패머가 접근하기 비교적 쉬운 개인정보인 “주민번호”, 특정 쇼핑몰의 “ID" 등은 낮은 가중치를 부여하며, 스패머가 접근하기 비교적 어려운 개인정보인 ”별명“, ”개인적인 특징“ 등은 높은 가중치를 부여한다. 다음 링크 위치는 현재 링크와 연결된 다음 링크의 위치 정보를 포함하고 4 바이트로 표현된다.The personal information delimiter is a unique integer value for distinguishing personal information items in the personal information storage box and is represented by 4 bytes. The personal information keyword is a specific character string to be compared and represents a personal information item and is represented by 100 bytes. The personal information keyword weight is an integer value representing the reliability of the personal information item and is expressed in 1 byte. That is, the personal information keyword weight is given according to the spammer exposure degree of the personal information. For example, “resident numbers”, which are relatively easy for spammers to access, “IDs” of particular shopping malls are given low weights, and “nicknames”, “personal features,” which are relatively difficult to access spammers. Gives a high weight The next link location contains the location information of the next link associated with the current link and is represented by 4 bytes.

한편, 판정 모듈(404)은 개인정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 고유명사 또는 명사의 키워드의 바이트 패턴과 개인 정보 보관함(406)에 저장되어 있는 개인정보들의 바이트 패턴을 비교하여, 일치하는 바이트 패턴이 존재하는 경우 이 결과에 따른 가중치를 계산하여 수신된 메일이 정상메일인지 여부를 판정한다.Meanwhile, the determination module 404 compares the byte pattern of the proper noun or the keyword of the noun stored in the personal information candidate key temporary storage table 402 with the byte pattern of the personal information stored in the personal information storage box 406. If a matching byte pattern exists, the weight is calculated according to this result to determine whether the received mail is a normal mail.

예를 들면, 판정 모듈(400)에서 개인정보에 대한 가중치가 100이상인 경우 정상메일로 판정하기로 가정한 경우, 표 3에서 "주임님"에 대한 가중치가 60이고 "삼성전자"에 대한 가중치가 40, "B사"에 대한 가중치가 50이므로 그 가중치의 누적합은 150이 되므로 해당 메일은 정상메일로 판정되어 정상 메일 보관함(300)로 전달시킨다.For example, in the determination module 400, if the weight for the personal information is 100 or more, it is assumed that the normal mail is determined. In Table 3, the weight for the “master” is 60 and the weight for the “Samsung” is 40, because the weight for "Company B" is 50, the cumulative sum of the weights is 150, so that the corresponding mail is determined to be a normal mail and forwarded to the normal mail locker 300.

이하, 도 4를 참조하여, 본 발명의 개인 정보 기반의 스팸 메일 차단 방법을 설명하기로 한다.Hereinafter, the spam mail blocking method based on personal information of the present invention will be described with reference to FIG. 4.

먼저, 스팸 메일 검사부(400)는 스팸 메일 보관함(200)으로부터 스팸 메일로 판정된 메일을 복사해온다(S100). 이때, 스팸 메일 검사부(400)는 스팸 메일 보관함(200)을 주기적으로 액세스하여 스팸 메일로 판정된 메일을 복사해와 검사하는 것이 바람직하다.First, the spam mail inspecting unit 400 copies the mail determined as spam mail from the spam mail storage box 200 (S100). At this time, the spam mail inspection unit 400 preferably accesses the spam mail storage box 200 to copy and examine the mail determined as spam mail.

구문 분석부(401)는 복사된 메일을 수신하여 메일 내용을 구문분석을 수행하여 명사를 추출하고 개인정보 후보자키 임시 저장 테이블(402)로 보내어 키워드로서 저장한다(S200).The parsing unit 401 receives the copied mail, parses the mail content, extracts a noun, and sends the noun to the personal information candidate key temporary storage table 402 to store the keyword as a keyword (S200).

임베디드 모듈(403)의 제어부(405)는 추출된 키워드의 바이트 패턴과 개인정보 보관함(406)에 저장되어 있는 개인 정보 키워드의 바이트 패턴을 비교하여 그 결과에 따른 가중치를 계산한다(S300).The controller 405 of the embedded module 403 compares the byte pattern of the extracted keyword with the byte pattern of the personal information keyword stored in the personal information storage box 406 and calculates a weight according to the result (S300).

그에 따라, 판정 모듈(404)는 가중치가 일정치 이상인지를 판정하여(S400Q) 일정치 이상인 경우 정상메일로 판정하여 해당 스팸 메일로 오인된 메일을 정상 메일 보관함(300)으로 전달한다(S500).Accordingly, the determination module 404 determines whether the weight is greater than or equal to a predetermined value (S400Q), and if it is greater than or equal to a predetermined value, determines that the mail is normal and delivers a mail mistaken as a corresponding spam mail to the normal mail storage box 300 (S500). .

이하, 도 5를 참조하여, 본 발명의 임베디드 모듈(403)에서의 개인 정보 검색 방법을 구체적으로 설명하기로 한다.Hereinafter, a personal information retrieval method in the embedded module 403 of the present invention will be described in detail with reference to FIG. 5.

먼저, 임베디드 모듈(403)을 초기화하고(S301), 개인 정보 보관함(406) 내의 개인정보영역의 시작노드 및 작업노드를 정의하고 초기화를 수행한다(S302). 여기서 작업 노드는 메모리가 아니라 작업을 수행하기 위한 포인터를 의미한다.First, the embedded module 403 is initialized (S301), the start node and the work node of the personal information area in the personal information storage box 406 are defined and initialization is performed (S302). Here, the work node means a pointer for performing a task, not a memory.

그 후, 제어부(405)는 개인 정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 키워드를 복사해와서(S303), 개인 정보 보관함(406)의 개인정보키워드 노드에 고객의 개인 정보 항목 (Privacy Keyword) 을 로드(load)시킨다(S304).Thereafter, the control unit 405 copies the keyword stored in the personal information candidate key temporary storage table 402 (S303), and stores the personal information item (Privacy) of the customer in the personal information keyword node of the personal information storage box 406. Keyword) is loaded (S304).

그 후, 개인 정보 영역 내의 시작노드를 작업 노드에 복사한다(S305). 이때, 개인 정보 영역의 시작 헤더 링크의 포인터 검색을 위한 임시 개인 정보 영역 노드에 복사하여 검색을 처음부터 수행하도록 한다. 즉, 링크드 리스트(linked list)는 항상 임시 노드를 만들어 여기에 시작 노드 포인터를 복사한 다음 처음부터 등록된 개인 정보 영역을 검색한다.Thereafter, the start node in the personal information area is copied to the work node (S305). At this time, the search is performed from the beginning by copying to the temporary personal information area node for searching the pointer of the start header link of the personal information area. In other words, the linked list always creates a temporary node, copies the starting node pointer to it, and then searches the registered private information area from the beginning.

그 후, 개인 정보 항목 연결 리스트를 순회하면서 개인 정보를 검색한다(S306). 즉, 개인 정보 영역별로 개인정보 키워드를 순회하면서 복사해온 키워드의 바이트 패턴과 개인 정보 영역 내의 개인 정보키워드의 바이트 패턴이 일치하는 것이 있는지를 판정하여 일치하는 것이 없으면 가중치를 "0"을 부여하고 일치하는 것이 있으면 키워드에 해당하는 가중치를 부여한다(S307).Thereafter, the personal information is retrieved while traversing the personal information item connection list (S306). That is, it is determined whether the byte pattern of the copied keyword and the byte pattern of the personal information keyword in the personal information area match while traversing the personal information keyword for each personal information area. If there is, a weight corresponding to the keyword is assigned (S307).

상기 과정 S302~S306의 과정의 알고리즘은 아래 표 4와 같이 구현될 수 있다.The algorithm of the processes of steps S302 to S306 may be implemented as shown in Table 4 below.

WHILE(현재 개인 정보 영역 != NULL) 개인 정보 항목을 검색하기 위한 임시 노드 pCurrentDBNode 정의 pCateNode의 개인 정보 항목 시작 노드를 pCurrentDBNode에 설정 WHILE(pCurrentDBNode != NULL) IF(SearchPrivacyKeyword함수를 이용한 키워드 바이트 패턴 비교 == 성공) pCurrentDBNode의 개인 정보 항목 구분자 반환 END OF IF 다음 개인 정보 시작 노드로 이동 END OF WHILE 다음 개인 정보 영역 노드로 이동 END OF WHILEWHILE (current privacy area! = NULL) Temporary node for retrieving privacy items pCurrentDBNode Definition Set the privacy entry start node of pCateNode to pCurrentDBNode WHILE (pCurrentDBNode! = NULL) IF (Compare keyword byte pattern using SearchPrivacyKeyword function = = Success) Return pCurrentDBNode's privacy item separator END OF IF Move to next privacy start node END OF WHILE Move to next privacy zone node END OF WHILE

특히, 상기 과정 S306의 예시를 더욱 구체적으로 나타내면 아래 표 5와 같다.In particular, the process S306 is shown in more detail as shown in Table 5 below.

//입력 : 비교할 대상 키워드의 byte //출력 : 비교후 결과 (같음:00000001, 틀림:00000000) byte SearchPrivacyKeyword(byte *pSrc, byte *pDest) //비교 대상 바이트가 0(NULL)이 아닐때까지 비교한다. while(*pSrc != 0) //하드웨어로 포팅하기 위해 EX-NOR를 사용해서 바이트 패턴을 검사한다. //*pSrc : 00001111 //*pDest :EX-NOR 00001111 // --------------- // 11111111 //(모두 같으면 0xff가 된다, 하나라도 다르면, 0xff가 않된다.) /////////////////////////////////////////////////////////////////////// if(((*pSrc)&(*pDest)) != (*pSrc)) return (byte)0; //if((*pSrc) == (*pDest)) return (byte)0; 같은 표현임. /////////////////////////////////////////////////////////////////////// //다음 바이트 위치로 이동 pSrc++; pDest++; //End of while //만약 비교할 Source Keyword의 바이트 패턴이 끝났는데 비교 대상의 Destination Keyword의 바이트 패턴이 더 남아있다면 같은 바이트 패턴이 아닌 것으로 판정됨. if(*pDest != 0) return 0; //모든 과정이 정상적으로 검사되었으면, 1을 반환 (이때, 바이트 타입으로 00000001로 반환하는 것이 바람직) return return 1; //End OF SearchPrivacyKeyword// input: byte of the keyword to compare // output: result after comparison (equal: 00000001, incorrect: 00000000) byte SearchPrivacyKeyword (byte * pSrc, byte * pDest) // until the byte to be compared is not 0 (NULL) Compare. while (* pSrc! = 0) // Exit the byte pattern using EX-NOR to port to hardware. // * pSrc: 00001111 // * pDest: EX-NOR 00001111 // --------------- // 11111111 // (If they are equal, it will be 0xff, if one is different, 0xff will be //////////////////////////////////////////////// ////////////////////////// if (((* pSrc) & (* pDest))! = (* pSrc)) return (byte) 0 ; // if ((* pSrc) == (* pDest)) return (byte) 0; Same expression. //////////////////////////////////////////////////// ///////////////////// // Go to next byte position pSrc ++; pDest ++; // End of while // If the byte pattern of the source keyword to be compared is over and there are more byte patterns of the destination keyword to be compared, it is determined that it is not the same byte pattern. if (* pDest! = 0) return 0; // If everything went well, return 1 (this is recommended to return 00000001 as byte type) return return 1; // End OF SearchPrivacyKeyword

상기 표 5는 하나의 키워드에 대해 검색을 수행하는 알고리즘이다. 개인 정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 모든 키워드들에 대해 상기 표 5의 알고리즘을 수행한다.Table 5 shows an algorithm for searching a single keyword. The algorithm of Table 5 is performed for all keywords stored in the personal information candidate key temporary storage table 402.

이때, 표 5에서 복사한 키워드와 개인 정보 영역 내의 개인 정보 키워드 중 하나의 바이트 패턴의 비교 시에, 복사한 키워드의 바이트 패턴의 비교가 끝난 후에도 비교 대상인 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트패턴이 남아 있는 경우 복사한 키워드와 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트 패턴이 동일한 것으로 판정하는 것이 바람직하다.At this time, when comparing the byte pattern of the keyword copied in Table 5 and one of the personal information keywords in the personal information area, the byte of one personal information keyword in the personal information area to be compared after the comparison of the byte pattern of the copied keyword is finished. If the pattern remains, it is preferable to determine that the byte pattern of the copied keyword and one personal information keyword in the personal information area are the same.

이와 같이, 본 발명의 스팸 메일 검사부(400)는 메일 내용 중의 문자열의 바이트 패턴과 개인정보 보관함(406)로부터 검색된 개인정보 문자열을 구성하는 바이트 패턴을 비교함으로써 스팸 메일 여부를 판정함으로써, 개인정보를 이용한 스팸 메일 검사 속도를 향상시킬 수 있다.As described above, the spam mail inspection unit 400 of the present invention compares the byte pattern of the character string in the mail content with the byte pattern constituting the personal information string retrieved from the personal information storage box 406 to determine whether the spam mail is spam or not. It can speed up the spam checking.

이상에서 살펴본 바와 같이, 본 발명은 개인정보 문자열을 구성하는 바이트의 패턴을 비교함으로써 스팸 메일 여부를 판정하므로 별도의 디코딩 모듈을 구비할 필요가 없어 비용이 절감되고 처리를 위한 시스템의 복잡도도 낮아져 유지 보수가 간편한 효과가 있다.As described above, the present invention determines whether or not spam mail by comparing the pattern of the bytes constituting the personal information string, it is not necessary to have a separate decoding module to reduce the cost and the complexity of the system for processing is kept low It is easy to repair.

또한, 본 발명은 개인정보를 바이트 패턴 비교를 통해 추출함으로써 개인 정보 검출 속도를 향상시키고, 모든 임베디드 시스템에도 적용할 수 있는 효과가 있다.In addition, the present invention improves the detection speed of personal information by extracting personal information through byte pattern comparison, and can be applied to all embedded systems.

아울러 본 발명의 바람직한 실시예는 예시의 목적을 위한 것으로, 당업자라면 첨부된 특허 청구범위의 기술적 사상과 범위를 통해 다양한 수정, 변경, 대체 및 부가가 가능할 것이며, 이러한 수정 변경 등은 이하의 특허 청구범위에 속하는 것으로 보아야 할 것이다.In addition, a preferred embodiment of the present invention is for the purpose of illustration, those skilled in the art will be able to various modifications, changes, replacements and additions through the spirit and scope of the appended claims, such modifications and changes are the following claims It should be seen as belonging to a range.

Claims (10)

개인 정보 보관함 내의 개인 정보 영역의 시작 노드 및 작업 노드를 정의하고 초기화하는 제 1과정;A first step of defining and initializing a start node and a work node of a personal information area in the personal information storage box; 수신된 메일의 구문분석을 통해 추출된 키워드를 복사하는 제 2 과정;A second step of copying a keyword extracted by parsing the received mail; 상기 개인 정보 영역 내에 저장된 개인 정보 항목들을 로드하는 제 3 과정; 및A third step of loading personal information items stored in the personal information area; And 상기 개인 정보 영역 내에 상기 복사한 키워드의 바이트 패턴과 일치하는 바이트 패턴의 키워드가 존재하는 지를 검색하는 제 4과정을 포함하는 것을 특징으로 하는 개인 정보 항목 검색방법.And a fourth step of searching for whether there is a keyword of a byte pattern that matches the byte pattern of the copied keyword in the personal information area. 제 1항에 있어서,The method of claim 1, 상기 제 4과정의 판정 결과, 상기 일치하는 바이트 패턴이 존재하는 경우 상기 추출된 키워드에 해당하는 가중치를 부여하는 제 5과정을 더 포함하는 것을 특징으로 하는 개인 정보 항목 검색방법.And a fifth process of assigning a weight corresponding to the extracted keyword when the matching byte pattern exists as a result of the determination in the fourth process. 제 1항에 있어서, 상기 제 4과정은,The method of claim 1, wherein the fourth process, 상기 복사한 키워드 중 하나에 대하여 상기 개인 정보 영역 내의 모든 개인 정보 키워드의 바이트 패턴을 순차적으로 비교한 후, 상기 복사한 키워드 중 나머지에 대하여 상기 개인 정보 영역 내의 모든 개인 정보 키워드의 바이트 패턴 비교 를 순차적으로 수행하는 것을 특징으로 하는 개인 정보 항목 검색방법.Compare byte patterns of all personal information keywords in the personal information area with respect to one of the copied keywords sequentially, and then compare byte patterns of all personal information keywords in the personal information area with respect to the remaining of the copied keywords. Personal information item retrieval method characterized in that performed by. 제 3항에 있어서, 상기 제 4과정은,The method of claim 3, wherein the fourth process, 상기 복사한 키워드와 상기 개인 정보 영역 내의 개인 정보 키워드 중 하나의 바이트 패턴의 비교 시에, 상기 복사한 키워드의 바이트 패턴의 비교가 끝난 후에도 상기 비교 대상인 상기 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트패턴이 남아 있는 경우 상기 복사한 키워드와 상기 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트 패턴이 동일한 것으로 판정하는 것을 특징으로 하는 개인 정보 항목 검색방법.When comparing the copied keyword and the byte pattern of one of the personal information keywords in the personal information area, the byte of one personal information keyword in the personal information area to be compared after the comparison of the byte pattern of the copied keyword is finished. And if the pattern remains, determining that the copied keyword and the byte pattern of one personal information keyword in the personal information area are the same. 제 4항에 있어서, 상기 제 4과정은,The method of claim 4, wherein the fourth process, 상기 바이트 패턴의 비교 시에, 비교 대상이 되는 개인 정보 영역 내의 개인 정보 키워드의 바이트가 0(null)이 될 때까지 그 비교를 수행하는 것을 특징으로 하는 개인 정보 항목 검색방법.And when comparing the byte pattern, performing the comparison until the byte of the personal information keyword in the personal information area to be compared becomes null. 스팸 메일로 판정된 메일을 복사하여 구문 분석을 수행하는 제 1 과정;A first step of parsing by copying the mail determined as spam mail; 상기 구문 분석을 통해 구분된 명사의 키워드를 추출하여 저장하는 제 2 과정; 및A second process of extracting and storing keywords of nouns separated by the syntax analysis; And 상기 키워드의 바이트 패턴과 개인 정보 보관함에 저장되어 있는 개인 정보 키워드들의 바이트 패턴을 비교하여 그 결과에 따라 가중치를 부여하여, 상기 가중 치가 일정치 이상이면 상기 스팸 메일로 판정된 메일이 정상메일인 것으로 판정하는 제 3 과정을 포함하는 것을 특징으로 하는 개인정보 기반의 스팸 메일 차단 방법.The byte pattern of the keyword is compared with the byte pattern of the personal information keywords stored in the personal information storage box and weighted according to the result. If the weighting value is greater than or equal to a predetermined value, the mail determined as the spam mail is a normal mail. Personal information-based spam mail blocking method comprising the third step of determining. 제 6항에 있어서, 상기 제 3과정은,The method of claim 6, wherein the third process, 개인 정보 보관함 내의 개인 정보 영역의 시작 노드 및 작업 노드를 정의하고 초기화하는 제 3-1과정;Step 3-1 of defining and initializing a start node and a work node of the personal information area in the personal information storage box; 상기 제 2 과정에서 추출된 키워드를 복사해오는 제 3-2과정;Step 3-2 to copy the keywords extracted in the second process; 상기 개인 정보 영역 내에 개인 정보 키워드를 저장하는 제 3-3 과정;Step 3-3 of storing a personal information keyword in the personal information area; 상기 개인 정보 영역 내에 상기 추출된 키워드의 바이트 패턴과 일치하는 바이트 패턴의 키워드가 존재하는 지를 판정하는 제 3-4과정;A third to fourth step of determining whether a keyword of a byte pattern that matches the byte pattern of the extracted keyword exists in the personal information area; 상기 제 3-4 과정의 판정 결과, 상기 일치하는 바이트 패턴이 존재하는 경우 상기 추출된 키워드에 해당하는 가중치를 부여하는 제 3-5 과정; 및A third to fifth step of giving a weight corresponding to the extracted keyword when the matching byte pattern exists as a result of the determination in the third to fourth processes; And 상기 가중치가 일정치 이상이면 상기 스팸 메일로 판정된 메일이 정상메일인 것으로 판정하는 제 3-6과정을 포함하는 것을 특징으로 하는 개인정보 기반의 스팸 메일 차단 방법.And a third to sixth step of determining that the mail determined as the spam mail is a normal mail if the weight is greater than or equal to a predetermined value. 제 7항에 있어서, 상기 제 3-4 과정은,The method of claim 7, wherein the process 3-4, 상기 복사한 키워드 중 적어도 하나에 대하여 상기 개인 정보 영역 내의 모든 개인 정보 키워드의 바이트 패턴을 순차적으로 비교한 후, 상기 복사한 키워드 중 나머지에 대하여 상기 개인 정보 영역 내의 모든 개인 정보 키워드의 바이트 패턴 비교를 순차적으로 수행하는 것을 특징으로 하는 개인 정보 기반의 스팸 메일 차단 방법.Sequentially comparing byte patterns of all personal information keywords in the personal information area with respect to at least one of the copied keywords, and comparing byte patterns of all personal information keywords in the personal information area with respect to the remaining of the copied keywords. Personal information-based spam mail blocking method characterized in that performed sequentially. 제 8항에 있어서, 상기 제 3-4 과정은,The method of claim 8, wherein the step 3-4 is performed. 상기 복사한 키워드와 상기 개인 정보 영역 내의 개인 정보 키워드 중 하나의 바이트 패턴의 비교 시에, 상기 복사한 키워드의 바이트 패턴의 비교가 끝난 후에도 상기 비교 대상인 상기 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트패턴이 남아 있는 경우 상기 복사한 키워드와 상기 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트 패턴이 동일한 것으로 판정하는 것을 특징으로 하는 개인 정보 기반의 스팸 메일 차단 방법.When comparing the copied keyword and the byte pattern of one of the personal information keywords in the personal information area, the byte of one personal information keyword in the personal information area to be compared after the comparison of the byte pattern of the copied keyword is finished. And if the pattern remains, determining that the copied keyword and the byte pattern of one personal information keyword in the personal information area are the same. 제 8항에 있어서, 상기 제 3-4과정은,The method of claim 8, wherein the step 3-4, 상기 바이트 패턴의 비교 시에, 비교 대상이 되는 개인 정보 영역 내의 개인 정보 키워드의 바이트가 0(null)이 될 때까지 그 비교를 수행하는 것을 특징으로 하는 개인 정보 기반의 스팸 메일 차단 방법.When comparing the byte pattern, the comparison is performed until the byte of the personal information keyword in the personal information area to be compared becomes null (null).
KR1020060056980A 2006-06-23 2006-06-23 Method for blocking spam mail in private information based and method for searching private information thereof KR100771311B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060056980A KR100771311B1 (en) 2006-06-23 2006-06-23 Method for blocking spam mail in private information based and method for searching private information thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060056980A KR100771311B1 (en) 2006-06-23 2006-06-23 Method for blocking spam mail in private information based and method for searching private information thereof

Publications (1)

Publication Number Publication Date
KR100771311B1 true KR100771311B1 (en) 2007-10-29

Family

ID=38816251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060056980A KR100771311B1 (en) 2006-06-23 2006-06-23 Method for blocking spam mail in private information based and method for searching private information thereof

Country Status (1)

Country Link
KR (1) KR100771311B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101033511B1 (en) 2008-09-12 2011-05-09 (주)소만사 Method for protecting private information and computer readable recording medium therefor
RU2684578C2 (en) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Language independent technology of typos correction, with the possibility of verification result

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020040971A (en) * 2000-11-25 2002-05-31 구자홍 Method and apparatus for cutting off mail
KR20050099656A (en) * 2004-04-12 2005-10-17 (주)고은정보통신 Method and system for cutting with spam-mail, computer-readable storage medium recorded with spam-mail

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020040971A (en) * 2000-11-25 2002-05-31 구자홍 Method and apparatus for cutting off mail
KR20050099656A (en) * 2004-04-12 2005-10-17 (주)고은정보통신 Method and system for cutting with spam-mail, computer-readable storage medium recorded with spam-mail

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101033511B1 (en) 2008-09-12 2011-05-09 (주)소만사 Method for protecting private information and computer readable recording medium therefor
RU2684578C2 (en) * 2017-07-17 2019-04-09 Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" Language independent technology of typos correction, with the possibility of verification result

Similar Documents

Publication Publication Date Title
US9558241B2 (en) System and method for performing longest common prefix strings searches
US11095586B2 (en) Detection of spam messages
US8515894B2 (en) Email analysis using fuzzy matching of text
US7054855B2 (en) Method and system for performing a pattern match search for text strings
AU2008204378B2 (en) A method and system for collecting addresses for remotely accessible information sources
US8812515B1 (en) Processing contact information
US8095547B2 (en) Method and apparatus for detecting spam user created content
US20020156817A1 (en) System and method for extracting information
US20060095966A1 (en) Method of detecting, comparing, blocking, and eliminating spam emails
US20150095359A1 (en) Volume Reducing Classifier
US7624274B1 (en) Decreasing the fragility of duplicate document detecting algorithms
KR20140051914A (en) Compiler for regular expressions
WO2012112944A2 (en) Managing unwanted communications using template generation and fingerprint comparison features
US10460041B2 (en) Efficient string search
CN101470752A (en) Search engine method based on keyword resolution scheduling
KR100771311B1 (en) Method for blocking spam mail in private information based and method for searching private information thereof
US8819142B1 (en) Method for reclassifying a spam-filtered email message
JP4642903B2 (en) Message conversion system and method with enhanced context recognition
CN108427769B (en) Character interest tag extraction method based on social network
Yerazunis et al. A unified model of spam filtration
KR100459379B1 (en) Method for producing basic data for determining whether or not each electronic document is similar and System therefor
CN113312540A (en) Information processing method, device, equipment, system and readable storage medium
US8577893B1 (en) Ranking based on reference contexts
Eshmawi et al. Feature reduction for optimum sms spam filtering using domain knowledge
KR20060128238A (en) System for blocking spam mail and recovering false positive spam mail

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121009

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130930

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20141006

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee