KR100771311B1 - Method for blocking spam mail in private information based and method for searching private information thereof - Google Patents
Method for blocking spam mail in private information based and method for searching private information thereof Download PDFInfo
- Publication number
- KR100771311B1 KR100771311B1 KR1020060056980A KR20060056980A KR100771311B1 KR 100771311 B1 KR100771311 B1 KR 100771311B1 KR 1020060056980 A KR1020060056980 A KR 1020060056980A KR 20060056980 A KR20060056980 A KR 20060056980A KR 100771311 B1 KR100771311 B1 KR 100771311B1
- Authority
- KR
- South Korea
- Prior art keywords
- personal information
- keyword
- byte
- information area
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000903 blocking effect Effects 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 3
- 230000008569 process Effects 0.000 claims description 17
- 238000001914 filtration Methods 0.000 description 9
- 238000011835 investigation Methods 0.000 description 8
- 238000007689 inspection Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/60—Business processes related to postal services
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
도 1은 종래의 스팸 메일 차단 시스템의 구성도.1 is a block diagram of a conventional spam mail blocking system.
도 2는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 구성도.2 is a block diagram of a system for blocking spam based on personal information according to an embodiment of the present invention.
도 3은 도 2의 스팸 메일 검사부의 세부 구성도.3 is a detailed configuration diagram of the spam mail inspection unit of FIG. 2.
도 4는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 방법을 나타내는 순서도.Figure 4 is a flow chart illustrating a method for blocking spam based on personal information according to an embodiment of the present invention.
도 5는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 개인 정보 추출 방법을 나타내는 순서도.5 is a flowchart illustrating a method for extracting personal information of a system for blocking spam mail based on personal information according to an embodiment of the present invention.
*** 도면의 주요 부분에 대한 부호의 설명 ****** Explanation of symbols for the main parts of the drawing ***
2 : 메일 수신함 4 : 스팸 메일 필터부2: mail inbox 4: spam mail filter unit
6 : 스팸 메일 수신함 8 : 스팸 정보 저장부6: spam inbox 8: spam information storage unit
100 : 스팸 메일 차단부 200 : 스팸 메일 보관함100: spam blocker 200: spam mail box
300 : 정상 메일 보관함 400 : 스팸 메일 검색부300: normal mail storage box 400: spam mail search unit
401 : 구문 문석부 403 : 임베디드 모듈401: Syntax 403: embedded module
402 : 개인정보 후보자키 임시 저장 테이블402: Temporary storage table for personal information candidate key
404 : 판정 모듈 405: 제어부404: Decision module 405: control unit
406 : 개인정보 보관함406: Personal Information Box
본 발명은 개인정보 기반의 스팸 메일 차단 방법 및 그 개인 정보 검색방법에 관한 것으로서, 보다 상세하게는 개인 정보를 이용한 스팸 메일 차단 서비스 제공 시에, 개인 정보 검색을 위해 메일 내용 중의 명사형 키워드의 바이트 패턴과 미리 저장해둔 개인 정보 키워드의 바이트 패턴을 비교함으로써 그 검색 효율을 향상시키는 기술이다.The present invention relates to a spam mail blocking method based on personal information and a method for searching the personal information, and more particularly, when providing a spam mail blocking service using personal information, a byte pattern of a noun keyword in a mail content for searching for personal information. And a technique of improving the retrieval efficiency by comparing the byte pattern of the previously stored personal information keyword.
최근 인터넷과 같은 통신망이 발달하면서 이를 이용한 상업적, 비상업적 서비스가 기하급수적으로 증가하고 있으며, 이 중에서 전자 우편 서비스(E-Mail service)는 가장 널리 사용되고 있는 서비스이다. 이러한 전자 우편 서비스가 널리 이용됨에 따라 전자 우편 서비스를 이용하여 자사의 제품을 홍보하려는 광고성 스팸 메일이 급증하고 있어 전자 우편 서비스를 이용하는 사용자들의 불만이 증가하고 있고 특히, 불법 음란 스팸 메일은 성인뿐만 아니라 아동 및 청소년에게도 무차별적으로 전송되어 사회문제로까지 확산 되고 있다.Recently, with the development of communication networks such as the Internet, commercial and non-commercial services using them are increasing exponentially. Among these, the E-mail service is the most widely used service. Due to the widespread use of such e-mail services, there has been a surge in advertising spam that uses e-mail services to promote their products. In particular, users of e-mail services are increasing complaints. It is transmitted indiscriminately to children and adolescents and is spreading to social issues.
일반적으로, 스팸 메일은 SMTP(Simple Mail Transfer Protocol), EML(Enveloped Message) 등과 같은 메일 송신 프로토콜을 통해 발송되며, 이러한 메일 송신 프로토콜을 이용한 스팸 메일의 발송유형은 크게 나열(Serialization)발송 유형, HTML Cloaking발송 유형, 그래피컬(Graphical)발송 유형, 오써엔코딩(Other Encoding)발송유형, 개인화(Personalized)발송유형, 씬텍스 노이즈(Syntax Noise)발송 유형 등으로 구분된다.In general, spam mail is sent through mail sending protocols such as Simple Mail Transfer Protocol (SMTP), Enveloped Message (EML), and the like, and types of spam mail using these mail sending protocols are listed in large order (Serialization) sending type, HTML It is divided into Cloaking type, Graphical type, Other Encoding type, Personalized type, and Syntax Noise type.
나열(Serialization)발송 유형은 스팸 메일에 주어진 문자열 사이에 유일한 값들을 첨부하여 발송하는 메일발송기법이다. 이러한 나열(Serialization)발송 유형은 스팸 메일의 해쉬정보를 저장하여 스팸 메일 차단을 수행하는 체크썸 기술이 무효하므로, 정규식과 필터링 스크립트 등을 이용하여 수신된 스팸 메일을 구별할 수 있는 정교한 필터링 스크립트를 적용하여 차단될 수 있다.The serialization sending type is a mail sending technique that attaches unique values between the strings given to spam mail. This type of serialization is invalid because the checksum technique of blocking spam mail by storing hash information of spam mail is invalid. Therefore, a sophisticated filtering script that can distinguish received spam mail using regular expressions and filtering scripts, etc. Can be blocked by application.
그래피컬(Graphical) 발송 유형은 부가 정보 없이 스팸 내용을 이미지로 작성하여 전송하는 스팸 메일 발송 유형이다. 이러한 스팸 내용이 특정 이미지 포맷으로 구성되어 있는 경우 우선 이미지 패턴 작업을 수행하여 이미지 내에 URL(uniform resource locator), 번호 등의 정보를 추출한 후, 추출된 정보를 조합하여 필터링 스크립트를 적용함으로써 스팸 메일을 차단할 수 있다.Graphical sending type is a spam mail sending type that creates and sends spam content as an image without additional information. If the spam content is composed of a specific image format, first perform image patterning to extract information such as uniform resource locator (URL), number, etc. within the image, and then combine the extracted information to apply a filtering script to prevent spam. You can block.
오써엔코딩(Other Encoding) 발송 유형은 기존의 메일 포맷이 아닌 비 표준 메일 포맷으로 인코딩하여 발송하는 스팸 메일 발송 유형이다. 이러한 발송 유형은 수신메일의 인코딩 타입을 분석 및 추출하여 디코딩하여 처리하거나 자체 디코더를 통해 메일을 디코딩한 후 스팸 메일 차단 기술을 적용할 수 있다.The Other Encoding sending type is a spam mailing type that is encoded and sent in a non-standard mail format rather than a conventional mail format. This type of sending can be processed by analyzing, extracting and decoding the encoding type of the received mail, or applying the spam mail blocking technology after decoding the mail through its decoder.
개인화(Personalized) 발송 유형은 특수 개인이 자신만의 고유한 포맷으로 스팸정보를 생성하여 발송하는 유형을 의미한다. 이러한 개별적인 고유 스팸 유형 은 스팸 메일 내에 본문의 패턴 분석을 수행하여 차단한다.Personalized delivery type means that a special individual generates and sends spam information in its own format. These individual types of spam are blocked by performing a pattern analysis of the body within the spam mail.
씬텍스 노이즈(Syntax Noise) 발송 유형은 메일 내용 중 무의미한 기호나 문자를 이용하여 스팸 메일을 발송하는 유형을 의미한다. 문자로 구성된 스팸 연상 발송 유형은 다른 문자열 기반의 스팸 메일 차단 기술과 유사하게 정규식이나 특수 문자, 혹은 무의미한 기호 등을 삭제하여 스팸 유형화 직전의 원문으로 복원하여 스팸 메일 차단을 위한 정규식을 적용한다.The Syntax Noise sending type refers to a type of sending spam mails using meaningless symbols or characters in the mail contents. Similar to other string-based spam mail blocking technology, the spam association type consisting of letters is deleted by regular expressions, special characters, or meaningless symbols, and restored to the original text immediately before spam typing.
이와 같이 스팸 메일의 발송 유형의 다양한 형태로 스팸 정보 전달을 위한 포맷이 동적으로 생성된다. 그러므로 기존의 스팸 메일 차단 기술은 최소시간에 동적인 발송 유형과 정적인 관례적 처리 특성을 고려하여 적절한 차단기술의 효과적 적용을 우선시한다.As such, a format for delivering spam information is dynamically generated in various forms of spam mail delivery types. Therefore, the existing spam mail blocking technology prioritizes the effective application of appropriate blocking technology in consideration of the dynamic sending type and the static conventional processing characteristics in the minimum time.
기존의 스팸 메일 차단 방식은 상품 정보 영역에 특정 정보를 계층적 데이터 풀로 구성하여 스팸 메일을 차단하며, 도 1을 참조하여 종래의 스팸 메일 차단방법을 보다 구체적으로 설명하기로 한다.The conventional spam mail blocking method blocks spam mail by configuring specific information in a hierarchical data pool in the product information area, and the conventional spam mail blocking method will be described in more detail with reference to FIG. 1.
도 1을 참조하면, 종래의 스팸 메일 차단방법은 메일 수신함(2)에 수신된 메일을 스팸 메일 필터부(4)를 통하여 스팸 메일과 일반메일로 구분하여 스팸 메일은 스팸 메일 수신함(6)에 보관되고, 그렇지 않은 일반 메일은 메일 수신자에게 전달된다.Referring to FIG. 1, the conventional spam mail blocking method divides the mail received in the
이처럼 기존의 상품 정보를 기반으로 한 스팸 메일 차단 필터링은 교차필터링 작업 수행시 서로 다른 필터링 특성에 기인되어 정상 메일을 스팸 메일로 오인하거나, 혹은 스팸 메일을 정상 메일로 간주하여 오판하는 경우가 발생한다. 이처 럼 스팸 메일로 오인된 정상 메일을 폴스 포지티브(FALSE POSITIVE) 메일이라 한다.As mentioned above, spam mail filtering based on existing product information is misinterpreted as a normal mail or spam mail as a normal mail due to different filtering characteristics when performing cross filtering. . Such a normal mail mistaken for spam mail is called a FALSE POSITIVE mail.
폴스 포지티브(FALSE POSITIVE) 메일이 발생하는 원인은 주로 스팸 메일의 유형에 대한 대응 필터링의 판정 알고리즘의 특성적 한계에 기인 되며, 그 중 하나는 스패머의 스팸 메일 형식의 변화를 들 수 있다. 즉, 스패머가 필터링 회피를 위해 문자 기반의 끼워넣기 포맷의 스팸 메일을 생성하면서 이후 다양한 스팸 메일 포맷이 출현하였다. The cause of FALSE POSITIVE mails is mainly due to the characteristic limitations of the decision-making algorithm of correspondence filtering for the types of spam mails, one of which is the change of spammers' spam mail format. That is, while spammers generate spam mails of character-based embedding format to avoid filtering, various spam mail formats have appeared.
스팸 메일 형식의 변화는 크게 내용 변형 스팸 메일과 형식 변형 스팸 메일로 구분할 수 있다. 내용 변형 스팸 메일 형식은 키워드를 구성하는 문자 사이에 다양한 부가 문자를 추가하여 자연어 구문 검색을 막기 위한 방법이고, 형식 변형 스팸 메일 형식은 기존의 스팸 메일의 유형을 세밀히 분석해서 대응 가능한 필터링 기법을 순차 적용하여 변환된 형식을 제거하는 방식이다.Changes in spam format can be largely divided into content-modified spam and format-modified spam. The content variation spam mail format is a method to prevent natural language phrase search by adding various additional characters between the characters constituting the keyword, and the format variation spam mail format analyzes the existing types of spam mails in detail and processes corresponding filtering techniques. Applied to remove the converted format.
이와 같이, 종래에는 스팸정보 저장부(8)에 저장되어 있는 스팸정보만을 이용하여 스팸 메일을 차단하므로, 상술한 바와 같이 스패머에 의해 스팸 메일 형식의 변화에 따른 새로운 형식의 스팸 메일을 차단하지 못하거나 정상메일을 스팸 메일로 오인하는 경우가 많이 발생하였고, 스팸 메일 형식 변화에 대응하여 스팸 정보를 업데이트하더라도 그 발생속도와 양이 엄청나 그에 대응하기가 어렵고 그 발생속도와 양의 증가로 인해 시스템의 부하도 커지는 문제점이 있다.As described above, since the spam mail is blocked by using only the spam information stored in the spam
또한, 종래의 스팸 메일 차단 방식은 기본적으로 문자열을 비교하는 방식을 사용하는데, 이러한 문자열 비교 방식은 수신될 메일 내에 비교될 문자열과 비교 대상이 되는 문자열을 디코딩해야 하므로 디코딩을 위한 별도의 소프트웨어 모듈과 하드웨어 모듈이 필요하게 되어 시스템이 복잡하고 비용 소모가 큰 문제점이 있었다.In addition, the conventional spam mail blocking method basically uses a method of comparing strings. Since this string comparison method needs to decode a string to be compared with a string to be compared in a received mail, a separate software module for decoding and There is a problem that the system is complicated and expensive due to the need for a hardware module.
또한, 종래의 문자열 비교 방식은 윈도우즈 2000 서버 운영체제에서 개발할때는 MS-SQL(데이터베이스) 소프트웨어 제품을 이용하여 검색하고자 하는 문자열을 SQL을 이용하여 검색하였으나, MS-SQL(데이터베이스) 소프트웨어를 지원하지 않는 임베디드(embedded)장치에서는 불가능한 문제점이 있었다.In addition, the conventional character string comparison method uses MS-SQL (database) software products to develop a character string comparison using SQL. However, the string comparison method does not support MS-SQL (database) software. There was an impossible problem with the device.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 개인정보를 문자열이 아닌 바이트 패턴 비교를 통해 검색하도록 함으로써, 개인 정보 검색 속도를 향상시키고, 범용 임베디드 시스템에서도 개인 정보 기반의 스팸 메일 차단 방법을 적용할 수 있도록 하는데 있다.An object of the present invention for solving the above problems is to improve the speed of searching for personal information by searching the personal information by comparing the byte pattern rather than a string, and a method for blocking spam based on personal information in a general-purpose embedded system. To make it applicable.
상기 과제를 달성하기 위한 본 발명에 따른 개인 정보 항목 검색방법은,개인 정보 보관함 내의 개인 정보 영역의 시작 노드 및 작업 노드를 정의하고 초기화하는 제 1과정과, 수신된 메일의 구문분석을 통해 추출된 키워드를 복사하는 제 2 과정과, 상기 개인 정보 영역 내에 개인 정보 항목들을 저장하는 제 3 과정과, 상기 개인 정보 영역 내에 상기 복사한 키워드의 바이트 패턴과 일치하는 바이트 패턴의 키워드가 존재하는 지를 검색하는 제 4과정을 포함하는 것을 특징으로 한다.The personal information item retrieval method according to the present invention for achieving the above object, the first step of defining and initializing the start node and the work node of the personal information area in the personal information library, and extracted through the parsing of the received mail A second process of copying a keyword, a third process of storing personal information items in the personal information area, and searching for whether a keyword of a byte pattern matching the byte pattern of the copied keyword exists in the personal information area; And a fourth process.
또한, 본 발명에 따른 개인 정보 기반의 스팸 메일 차단 방법은, 스팸 메일 로 판정된 메일을 복사하여 구문 분석을 수행하는 제 1 과정과, 상기 구문 분석을 통해 구분된 명사의 키워드를 추출하여 저장하는 제 2 과정과, 상기 키워드의 바이트 패턴과 개인 정보 보관함에 저장되어 있는 개인 정보 키워드들의 바이트 패턴을 비교하여 그 결과에 따라 가중치를 부여하여, 상기 가중치가 일정치 이상이면 상기 스팸 메일로 판정된 메일이 정상메일인 것으로 판정하는 제 3 과정을 포함하는 것을 특징으로 한다.In addition, the spam information blocking method based on personal information according to the present invention, the first process of performing a parsing by copying the mail determined as spam mail, and extracting and storing keywords of nouns separated through the parsing Comparing the byte pattern of the keyword with the byte pattern of the personal information keywords stored in the personal information storage box and assigning weights according to the result; if the weight is equal to or greater than a predetermined value, the mail determined as the spam mail And a third step of determining that this is a normal mail.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하면 다음과 같다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 2는 본 발명의 실시예에 따른 개인 정보 기반의 스팸 메일 차단 시스템의 구성도이다. 2 is a block diagram of a system for blocking spam based on personal information according to an embodiment of the present invention.
도 2를 참조하면, 본 발명에 따른 스팸 메일 차단 시스템은 스팸메일 차단부(100), 스팸 메일 보관함(200), 정상 메일 보관함(300), 및 스팸 메일 검사부(400)를 구비한다.2, the spam mail blocking system according to the present invention includes a spam
스팸메일 차단부(100)는 외부로부터 메일을 수신하고 수신한 메일들에 대해 스팸정보를 이용하여 스팸 메일 여부를 판정하여 수신한 메일로부터 스팸 메일과 정상메일을 분류한다.The spam
스팸 메일 보관함(200)은 스팸메일 차단부(100)에 의해 필터링된 스팸 메일을 저장하고, 정상메일 보관함(300)은 스팸메일 차단부(100)에 의해 필터링된 정상메일을 저장한다.The
스팸 메일 검사부(400)는 스팸 메일 보관함(200)에 저장되어 있는 스팸 메일 을 주기적으로 검사하여 폴스 포지티브(FALSE POSITIVE) 메일이 발견되면 이를 정상 메일 보관함(300)으로 이동시킨다. 즉, 스팸 메일 검사부(400)는 내부의 개인정보 보관함로부터 개인정보를 검색하여, 개인정보 기반으로 스팸 메일을 검사하며, 특히, 스팸 메일 검사부(400)는 문자열 비교가 아닌 키워드의 바이트 패턴을 비교하는 방식으로 개인정보 검색을 함으로써 개인 정보 검색 속도가 빠르다. 이러한 스팸 메일 검사부(400)는 도 3 과 같은 세부 구성을 갖는다.The spam
도 3에 따르면, 스팸 메일 검사부(400)는 구문 분석부(401), 개인정보 후보자키 임시 저장 테이블(402), 임베디드 모듈(403), 및 판정 모듈(404)을 포함하여 구성한다.According to FIG. 3, the spam
구문 분석부(401)는 수신된 메일 내용을 행 단위로 구분하여 자연어 파싱을 통해 구문분석을 수행하고 구문분석 결과 중 명사를 추출하여 개인정보 후보자키 임시 저장 테이블(401)로 전달한다. 이때, 자연어 파싱 방식은 수신된 메일 내용 중 단어의 품사(동사, 부사, 접속사, 형용사, 부사, 접속자, 형용사, 명사, 조사)를 구분하는 기술이다. 아래 표 2은 표1의 수신 메일에 대하여 구문 분석부(401)에서 구문을 분석한 예를 나타낸 것이다.The parsing unit 401 divides the received mail content by row, performs parsing through natural language parsing, extracts a noun from the parsing result, and delivers the noun to the personal information candidate key temporary storage table 401. At this time, the natural language parsing method is a technique for distinguishing parts of speech (verb, adverb, conjunction, adjective, adverb, accessor, adjective, noun, survey) from the received mail contents. Table 2 below shows an example of parsing by the parser 401 for the received mail of Table 1.
상기 표 1은 수신된 메일 내용의 예시를 나타낸다.Table 1 shows an example of received mail contents.
상기 표 2는 표 1에 대하여 구문분석을 실행한 결과를 나타내는 것으로, 품사와 주어, 목적어를 구분한 결과를 나타낸다.Table 2 shows the results of parsing the Table 1, and shows the results of division of parts and subjects and object words.
개인정보 후보자키 임시 저장 테이블(402)은 구문 분석부(401)로부터 추출된 명사를 수신하여 저장한다. 즉, 표 2의 "주임", "물품내역" "A사", "삼성전자" 등의 명사를 저장한다.The personal information candidate key temporary storage table 402 receives and stores nouns extracted from the parser 401. That is, nouns such as "chief", "article", "company A", and "Samsung Electronics" in Table 2 are stored.
임베디드 모듈(403)은 제어부(405)와 개인 정보 보관함(406)을 구비한다.The embedded
제어부(405)는 개인 정보 후보자키 임시 저장 테이블(402)부터 키워드를 복사하고, 개인 정보 보관함(406)의 정의 및 초기화를 제어하고, 개인 정보 보관함(406)에 복사해온 키워드의 바이트 패턴과 일치하는 개인 정보 키워드의 바이트패턴이 존재하는 지를 판정하여 존재하는 경우 해당 키워드에 맞는 가중치를 부여한다.The
개인 정보 보관함(406)은 고객이 등록한 개인의 이름, 나이, 직업, 집주소, 직장주소, 고향, 출신학교, 별명, 및 가족관계 등의 개인 정보를 저장하며, 그 개인 정보의 자료 구조는 아래 표 3과 같이 저장된다. The personal information storage box 406 stores personal information such as the name, age, occupation, home address, work address, hometown, home school, nickname, and family relationship of the individual registered by the customer, and the data structure of the personal information is shown below. It is stored as shown in Table 3.
표 3은 도 3의 개인 정보 보관함(406)에 저장된 개인 정보 자료 구조를 나타낸다. Table 3 shows the personal information data structure stored in the personal information archive 406 of FIG.
개인 정보 영역은 상용 메모리에서 허용할 수 있는 n개 이상 존재할 수 있으며, 저장 내용은 이름, 주소, 직장, 및 직급과 같은 개인 정보를 포함한다. There may be n or more personal information areas allowable in conventional memory, and the stored contents include personal information such as name, address, work, and rank.
개인 정보 영역은 개인 정보 영역 구분자, 개인 정보 포함 영역명, 개인 정보 시작 노드, 및 다음 링크 위치를 포함하고 각각의 구성 항목의 역할은 다음과 같다.The personal information area includes a personal information area separator, a personal information containing area name, a personal information start node, and a next link location, and the role of each configuration item is as follows.
먼저, 개인 정보 영역 구분자는 개인 정보 영역을 구분하기 위한 정수로 표현되며 4 바이트로 구현된다. 개인 정보 포함 영역명은 개인 정보 포함 영역을 표현하기 위한 제목을 포함하며 100바이트로 표현된다. 개인 정보 시작 노드는 개인 정보 항목의 시작 노드 주소정보를 포함하며 4바이트로 표현된다. 다음 링크 위치는 현재 링크와 연결된 다음 링크의 위치 정보를 포함하고 4 바이트로 표현된다.First, the personal information area separator is represented by an integer for distinguishing the personal information area and implemented by 4 bytes. The personal information containing area name includes a title for expressing the personal information containing area and is expressed by 100 bytes. The personal information start node contains the start node address information of the personal information item and is expressed in 4 bytes. The next link position contains position information of the next link connected with the current link and is represented by 4 bytes.
한편, 개인 정보 항목은 개인 정보 구분자, 개인 정보 키워드, 개인 정보 키워드 가중치, 및 다음 링크 위치를 포함하여 구성하며 각각의 구성 항목의 역할은 아래와 같다.Meanwhile, the personal information item includes a personal information separator, a personal information keyword, a personal information keyword weight, and a next link position. The role of each item is as follows.
개인 정보 구분자는 개인정보 보관함 내에서 개인 정보 항목 구분을 위한 유일한 정수값이며 4바이트로 표현되고, 개인 정보 키워드는 비교 대상이 되는 구체적인 문자열로서 개인 정보 항목을 나타내며 100바이트로 표현된다. 개인 정보 키워드 가중치는 개인 정보 항목의 신뢰성을 나타내는 정수값이며 1 바이트로 표현된다. 즉, 개인 정보의 스패머 노출 정도에 따라 개인 정보 키워드 가중치가 부여된다. 예를 들면, 스패머가 접근하기 비교적 쉬운 개인정보인 “주민번호”, 특정 쇼핑몰의 “ID" 등은 낮은 가중치를 부여하며, 스패머가 접근하기 비교적 어려운 개인정보인 ”별명“, ”개인적인 특징“ 등은 높은 가중치를 부여한다. 다음 링크 위치는 현재 링크와 연결된 다음 링크의 위치 정보를 포함하고 4 바이트로 표현된다.The personal information delimiter is a unique integer value for distinguishing personal information items in the personal information storage box and is represented by 4 bytes. The personal information keyword is a specific character string to be compared and represents a personal information item and is represented by 100 bytes. The personal information keyword weight is an integer value representing the reliability of the personal information item and is expressed in 1 byte. That is, the personal information keyword weight is given according to the spammer exposure degree of the personal information. For example, “resident numbers”, which are relatively easy for spammers to access, “IDs” of particular shopping malls are given low weights, and “nicknames”, “personal features,” which are relatively difficult to access spammers. Gives a high weight The next link location contains the location information of the next link associated with the current link and is represented by 4 bytes.
한편, 판정 모듈(404)은 개인정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 고유명사 또는 명사의 키워드의 바이트 패턴과 개인 정보 보관함(406)에 저장되어 있는 개인정보들의 바이트 패턴을 비교하여, 일치하는 바이트 패턴이 존재하는 경우 이 결과에 따른 가중치를 계산하여 수신된 메일이 정상메일인지 여부를 판정한다.Meanwhile, the determination module 404 compares the byte pattern of the proper noun or the keyword of the noun stored in the personal information candidate key temporary storage table 402 with the byte pattern of the personal information stored in the personal information storage box 406. If a matching byte pattern exists, the weight is calculated according to this result to determine whether the received mail is a normal mail.
예를 들면, 판정 모듈(400)에서 개인정보에 대한 가중치가 100이상인 경우 정상메일로 판정하기로 가정한 경우, 표 3에서 "주임님"에 대한 가중치가 60이고 "삼성전자"에 대한 가중치가 40, "B사"에 대한 가중치가 50이므로 그 가중치의 누적합은 150이 되므로 해당 메일은 정상메일로 판정되어 정상 메일 보관함(300)로 전달시킨다.For example, in the
이하, 도 4를 참조하여, 본 발명의 개인 정보 기반의 스팸 메일 차단 방법을 설명하기로 한다.Hereinafter, the spam mail blocking method based on personal information of the present invention will be described with reference to FIG. 4.
먼저, 스팸 메일 검사부(400)는 스팸 메일 보관함(200)으로부터 스팸 메일로 판정된 메일을 복사해온다(S100). 이때, 스팸 메일 검사부(400)는 스팸 메일 보관함(200)을 주기적으로 액세스하여 스팸 메일로 판정된 메일을 복사해와 검사하는 것이 바람직하다.First, the spam
구문 분석부(401)는 복사된 메일을 수신하여 메일 내용을 구문분석을 수행하여 명사를 추출하고 개인정보 후보자키 임시 저장 테이블(402)로 보내어 키워드로서 저장한다(S200).The parsing unit 401 receives the copied mail, parses the mail content, extracts a noun, and sends the noun to the personal information candidate key temporary storage table 402 to store the keyword as a keyword (S200).
임베디드 모듈(403)의 제어부(405)는 추출된 키워드의 바이트 패턴과 개인정보 보관함(406)에 저장되어 있는 개인 정보 키워드의 바이트 패턴을 비교하여 그 결과에 따른 가중치를 계산한다(S300).The
그에 따라, 판정 모듈(404)는 가중치가 일정치 이상인지를 판정하여(S400Q) 일정치 이상인 경우 정상메일로 판정하여 해당 스팸 메일로 오인된 메일을 정상 메일 보관함(300)으로 전달한다(S500).Accordingly, the determination module 404 determines whether the weight is greater than or equal to a predetermined value (S400Q), and if it is greater than or equal to a predetermined value, determines that the mail is normal and delivers a mail mistaken as a corresponding spam mail to the normal mail storage box 300 (S500). .
이하, 도 5를 참조하여, 본 발명의 임베디드 모듈(403)에서의 개인 정보 검색 방법을 구체적으로 설명하기로 한다.Hereinafter, a personal information retrieval method in the embedded
먼저, 임베디드 모듈(403)을 초기화하고(S301), 개인 정보 보관함(406) 내의 개인정보영역의 시작노드 및 작업노드를 정의하고 초기화를 수행한다(S302). 여기서 작업 노드는 메모리가 아니라 작업을 수행하기 위한 포인터를 의미한다.First, the embedded
그 후, 제어부(405)는 개인 정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 키워드를 복사해와서(S303), 개인 정보 보관함(406)의 개인정보키워드 노드에 고객의 개인 정보 항목 (Privacy Keyword) 을 로드(load)시킨다(S304).Thereafter, the
그 후, 개인 정보 영역 내의 시작노드를 작업 노드에 복사한다(S305). 이때, 개인 정보 영역의 시작 헤더 링크의 포인터 검색을 위한 임시 개인 정보 영역 노드에 복사하여 검색을 처음부터 수행하도록 한다. 즉, 링크드 리스트(linked list)는 항상 임시 노드를 만들어 여기에 시작 노드 포인터를 복사한 다음 처음부터 등록된 개인 정보 영역을 검색한다.Thereafter, the start node in the personal information area is copied to the work node (S305). At this time, the search is performed from the beginning by copying to the temporary personal information area node for searching the pointer of the start header link of the personal information area. In other words, the linked list always creates a temporary node, copies the starting node pointer to it, and then searches the registered private information area from the beginning.
그 후, 개인 정보 항목 연결 리스트를 순회하면서 개인 정보를 검색한다(S306). 즉, 개인 정보 영역별로 개인정보 키워드를 순회하면서 복사해온 키워드의 바이트 패턴과 개인 정보 영역 내의 개인 정보키워드의 바이트 패턴이 일치하는 것이 있는지를 판정하여 일치하는 것이 없으면 가중치를 "0"을 부여하고 일치하는 것이 있으면 키워드에 해당하는 가중치를 부여한다(S307).Thereafter, the personal information is retrieved while traversing the personal information item connection list (S306). That is, it is determined whether the byte pattern of the copied keyword and the byte pattern of the personal information keyword in the personal information area match while traversing the personal information keyword for each personal information area. If there is, a weight corresponding to the keyword is assigned (S307).
상기 과정 S302~S306의 과정의 알고리즘은 아래 표 4와 같이 구현될 수 있다.The algorithm of the processes of steps S302 to S306 may be implemented as shown in Table 4 below.
특히, 상기 과정 S306의 예시를 더욱 구체적으로 나타내면 아래 표 5와 같다.In particular, the process S306 is shown in more detail as shown in Table 5 below.
상기 표 5는 하나의 키워드에 대해 검색을 수행하는 알고리즘이다. 개인 정보 후보자키 임시 저장 테이블(402)에 저장되어 있는 모든 키워드들에 대해 상기 표 5의 알고리즘을 수행한다.Table 5 shows an algorithm for searching a single keyword. The algorithm of Table 5 is performed for all keywords stored in the personal information candidate key temporary storage table 402.
이때, 표 5에서 복사한 키워드와 개인 정보 영역 내의 개인 정보 키워드 중 하나의 바이트 패턴의 비교 시에, 복사한 키워드의 바이트 패턴의 비교가 끝난 후에도 비교 대상인 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트패턴이 남아 있는 경우 복사한 키워드와 개인 정보 영역 내의 하나의 개인 정보 키워드의 바이트 패턴이 동일한 것으로 판정하는 것이 바람직하다.At this time, when comparing the byte pattern of the keyword copied in Table 5 and one of the personal information keywords in the personal information area, the byte of one personal information keyword in the personal information area to be compared after the comparison of the byte pattern of the copied keyword is finished. If the pattern remains, it is preferable to determine that the byte pattern of the copied keyword and one personal information keyword in the personal information area are the same.
이와 같이, 본 발명의 스팸 메일 검사부(400)는 메일 내용 중의 문자열의 바이트 패턴과 개인정보 보관함(406)로부터 검색된 개인정보 문자열을 구성하는 바이트 패턴을 비교함으로써 스팸 메일 여부를 판정함으로써, 개인정보를 이용한 스팸 메일 검사 속도를 향상시킬 수 있다.As described above, the spam
이상에서 살펴본 바와 같이, 본 발명은 개인정보 문자열을 구성하는 바이트의 패턴을 비교함으로써 스팸 메일 여부를 판정하므로 별도의 디코딩 모듈을 구비할 필요가 없어 비용이 절감되고 처리를 위한 시스템의 복잡도도 낮아져 유지 보수가 간편한 효과가 있다.As described above, the present invention determines whether or not spam mail by comparing the pattern of the bytes constituting the personal information string, it is not necessary to have a separate decoding module to reduce the cost and the complexity of the system for processing is kept low It is easy to repair.
또한, 본 발명은 개인정보를 바이트 패턴 비교를 통해 추출함으로써 개인 정보 검출 속도를 향상시키고, 모든 임베디드 시스템에도 적용할 수 있는 효과가 있다.In addition, the present invention improves the detection speed of personal information by extracting personal information through byte pattern comparison, and can be applied to all embedded systems.
아울러 본 발명의 바람직한 실시예는 예시의 목적을 위한 것으로, 당업자라면 첨부된 특허 청구범위의 기술적 사상과 범위를 통해 다양한 수정, 변경, 대체 및 부가가 가능할 것이며, 이러한 수정 변경 등은 이하의 특허 청구범위에 속하는 것으로 보아야 할 것이다.In addition, a preferred embodiment of the present invention is for the purpose of illustration, those skilled in the art will be able to various modifications, changes, replacements and additions through the spirit and scope of the appended claims, such modifications and changes are the following claims It should be seen as belonging to a range.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060056980A KR100771311B1 (en) | 2006-06-23 | 2006-06-23 | Method for blocking spam mail in private information based and method for searching private information thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060056980A KR100771311B1 (en) | 2006-06-23 | 2006-06-23 | Method for blocking spam mail in private information based and method for searching private information thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100771311B1 true KR100771311B1 (en) | 2007-10-29 |
Family
ID=38816251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060056980A KR100771311B1 (en) | 2006-06-23 | 2006-06-23 | Method for blocking spam mail in private information based and method for searching private information thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100771311B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101033511B1 (en) | 2008-09-12 | 2011-05-09 | (주)소만사 | Method for protecting private information and computer readable recording medium therefor |
RU2684578C2 (en) * | 2017-07-17 | 2019-04-09 | Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" | Language independent technology of typos correction, with the possibility of verification result |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020040971A (en) * | 2000-11-25 | 2002-05-31 | 구자홍 | Method and apparatus for cutting off mail |
KR20050099656A (en) * | 2004-04-12 | 2005-10-17 | (주)고은정보통신 | Method and system for cutting with spam-mail, computer-readable storage medium recorded with spam-mail |
-
2006
- 2006-06-23 KR KR1020060056980A patent/KR100771311B1/en not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020040971A (en) * | 2000-11-25 | 2002-05-31 | 구자홍 | Method and apparatus for cutting off mail |
KR20050099656A (en) * | 2004-04-12 | 2005-10-17 | (주)고은정보통신 | Method and system for cutting with spam-mail, computer-readable storage medium recorded with spam-mail |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101033511B1 (en) | 2008-09-12 | 2011-05-09 | (주)소만사 | Method for protecting private information and computer readable recording medium therefor |
RU2684578C2 (en) * | 2017-07-17 | 2019-04-09 | Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" | Language independent technology of typos correction, with the possibility of verification result |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9558241B2 (en) | System and method for performing longest common prefix strings searches | |
US11095586B2 (en) | Detection of spam messages | |
US8515894B2 (en) | Email analysis using fuzzy matching of text | |
US7054855B2 (en) | Method and system for performing a pattern match search for text strings | |
AU2008204378B2 (en) | A method and system for collecting addresses for remotely accessible information sources | |
US8812515B1 (en) | Processing contact information | |
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
US20020156817A1 (en) | System and method for extracting information | |
US20060095966A1 (en) | Method of detecting, comparing, blocking, and eliminating spam emails | |
US20150095359A1 (en) | Volume Reducing Classifier | |
US7624274B1 (en) | Decreasing the fragility of duplicate document detecting algorithms | |
KR20140051914A (en) | Compiler for regular expressions | |
WO2012112944A2 (en) | Managing unwanted communications using template generation and fingerprint comparison features | |
US10460041B2 (en) | Efficient string search | |
CN101470752A (en) | Search engine method based on keyword resolution scheduling | |
KR100771311B1 (en) | Method for blocking spam mail in private information based and method for searching private information thereof | |
US8819142B1 (en) | Method for reclassifying a spam-filtered email message | |
JP4642903B2 (en) | Message conversion system and method with enhanced context recognition | |
CN108427769B (en) | Character interest tag extraction method based on social network | |
Yerazunis et al. | A unified model of spam filtration | |
KR100459379B1 (en) | Method for producing basic data for determining whether or not each electronic document is similar and System therefor | |
CN113312540A (en) | Information processing method, device, equipment, system and readable storage medium | |
US8577893B1 (en) | Ranking based on reference contexts | |
Eshmawi et al. | Feature reduction for optimum sms spam filtering using domain knowledge | |
KR20060128238A (en) | System for blocking spam mail and recovering false positive spam mail |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121009 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130930 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20141006 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |