KR101402339B1 - System and method of managing document - Google Patents

System and method of managing document Download PDF

Info

Publication number
KR101402339B1
KR101402339B1 KR1020120092340A KR20120092340A KR101402339B1 KR 101402339 B1 KR101402339 B1 KR 101402339B1 KR 1020120092340 A KR1020120092340 A KR 1020120092340A KR 20120092340 A KR20120092340 A KR 20120092340A KR 101402339 B1 KR101402339 B1 KR 101402339B1
Authority
KR
South Korea
Prior art keywords
question
document
words
word
score
Prior art date
Application number
KR1020120092340A
Other languages
Korean (ko)
Other versions
KR20140026772A (en
Inventor
김동욱
이승은
Original Assignee
주식회사 다음커뮤니케이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 다음커뮤니케이션 filed Critical 주식회사 다음커뮤니케이션
Priority to KR1020120092340A priority Critical patent/KR101402339B1/en
Publication of KR20140026772A publication Critical patent/KR20140026772A/en
Application granted granted Critical
Publication of KR101402339B1 publication Critical patent/KR101402339B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 문서 관리 방법은 문서 관리 장치가 대상 문서의 속성을 판단하여 관리하는 방법으로서, 기준 문서에서 제1 단어를 추출하는 단계, 상기 제1 단어가 답변을 요구하는 기존의 질문 문서에 출현하는 빈도를 기초로 상기 제1 단어의 질문 점수를 계산하는 단계, 상기 대상 문서에서 제2 단어를 추출하는 단계, 상기 제1 단어의 질문 점수를 기초로 상기 제2 단어의 질문 점수를 계산하는 단계, 그리고 상기 제2 단어의 질문 점수를 기초로 상기 대상 문서의 속성이 질문에 관련되었는지를 판단하는 단계를 포함한다.A document management method according to the present invention is a method for a document management apparatus to determine and manage attributes of a target document, the method comprising: extracting a first word from a reference document; Calculating a question score of the first word based on the frequency of the first word, calculating a question score of the second word based on the question score of the first word, And determining whether the attribute of the target document is related to the query based on the question score of the second word.

Description

문서 관리 시스템 및 문서 관리 방법{SYSTEM AND METHOD OF MANAGING DOCUMENT}[0001] SYSTEM AND METHOD OF MANAGING DOCUMENT [0002]

본 발명은 문서 관리 시스템 및 문서 관리 방법에 관한 것이다.The present invention relates to a document management system and a document management method.

인터넷 사용자는 포털 사이트(portal site) 등에서 관심 있는 업체 등을 검색하고, 검색된 업체의 정보를 제공받을 수 있다. 이때 사용자의 검색은 관심 있는 업체와 관련된 검색어(keyword)를 다양하게 입력함으로써 수행될 수 있다. 즉, 사용자가 업체에 관련된 검색어를 입력하면, 포털 사이트 등은 사용자가 입력한 검색어와 관련된 검색 결과 목록을 사용자에게 제공한다.Internet users can search for companies that they are interested in on a portal site or the like, and receive information on the searched companies. At this time, the user's search can be performed by variously inputting a keyword related to the interested company. That is, when the user inputs a search word related to the business, the portal site or the like provides the user with a search result list related to the search word input by the user.

이러한 검색 결과 목록에 포함되는 콘텐츠는 그 종류에 따라 다양한 섹션으로 구분되어 사용자단말에게 제공될 수 있으며, 그 노출 순위는 검색 시스템 제공 사업자가 마련한 기준에 따라 결정될 수 있다. 이때 검색 결과 목록에 포함되는 콘텐츠는 웹상에 등록된 다양한 문서를 포함할 수 있는데 문서의 종류 및 내용을 파악하는 것은 검색 품질에 중요한 요소가 될 수 있다.The content included in the search result list may be divided into various sections according to the type thereof and may be provided to the user terminal, and the exposure ranking may be determined according to criteria set by the search system provider. At this time, the content included in the search result list may include various documents registered on the web. Knowing the type and content of the document may be an important factor in the search quality.

본 발명이 이루고자 하는 기술적 과제는 웹 상에 등록된 문서의 제목과 내용을 기초로 문서가 질문에 관련되어 있는지를 판단하여 그에 따라 문서를 관리하는 시스템 및 방법을 제공하는 것이다.SUMMARY OF THE INVENTION The present invention provides a system and method for determining whether a document is related to a query based on a title and contents of a document registered on the web, and managing the document accordingly.

본 발명의 한 실시예에 따른 문서 관리 방법은 문서 관리 장치가 대상 문서의 속성을 판단하여 관리하는 방법으로서, 기준 문서에서 제1 단어를 추출하는 단계, 상기 제1 단어가 답변을 요구하는 기존의 질문 문서에 출현하는 빈도를 기초로 상기 제1 단어의 질문 점수를 계산하는 단계, 상기 대상 문서에서 제2 단어를 추출하는 단계, 상기 제1 단어의 질문 점수를 기초로 상기 제2 단어의 질문 점수를 계산하는 단계, 그리고 상기 제2 단어의 질문 점수를 기초로 상기 대상 문서의 속성이 질문에 관련되었는지를 판단하는 단계를 포함한다.A document management method according to an embodiment of the present invention is a method for a document management apparatus to determine and manage attributes of a target document, the method comprising: extracting a first word from a reference document; Calculating a question score of the first word on the basis of a frequency appearing in a question document, extracting a second word from the target document, calculating a question score of the second word based on the question score of the first word, And determining whether the attribute of the target document is related to the query based on the query score of the second word.

상기 제1 단어를 추출하는 단계 또는 상기 제2 단어를 추출하는 단계는 엔그램(N-gram) 방식을 이용할 수 있다.The step of extracting the first word or the step of extracting the second word may use an N-gram method.

상기 판단하는 단계는, 상기 제2 단어의 질문 점수가 임계값 이상인 경우에는 상기 대상 문서의 속성이 질문에 관련된다고 판단하는 단계, 그리고 상기 제2 단어의 질문 점수가 임계값 미만인 경우에는 상기 대상 문서의 속성이 질문에 관련되지 않는다고 판단하는 단계를 포함할 수 있다.Wherein the step of determining includes determining that an attribute of the target document is related to a question if the question score of the second word is greater than or equal to a threshold value and if the question score of the second word is less than a threshold value, Lt; RTI ID = 0.0 > attribute < / RTI > is not relevant to the query.

상기 기존의 질문 문서는 질문 게시판에 게시된 문서를 포함할 수 있다.The existing question document may include a document posted on the question bulletin board.

상기 질문 점수는 상기 제1 단어가 질문에 등장할 확률을 점수화한 것일 수 있다.The question score may be a score of a probability that the first word appears in the question.

상기 제2 단어의 질문 점수를 계산하는 단계는, 상기 제2 단어에 대응하는 상기 제1 단어의 질문 점수를 합산하는 단계를 포함할 수 있다.The step of calculating the question score of the second word may include summing the question scores of the first word corresponding to the second word.

본 발명의 다른 실시예에 따른 문서 관리 시스템은 기준 문서에서 제1 단어를 추출하고 대상 문서에서 제2 단어를 추출하는 단어 추출부, 상기 제1 단어가 답변을 요구하는 기존의 질문 문서에 출현하는 빈도를 기초로 상기 제1 단어의 질문 점수를 계산하는 질문 점수 계산부, 그리고 상기 제1 단어의 질문 점수를 기초로 상기 제2 단어의 질문 점수를 계산하고, 상기 제2 단어의 질문 점수를 기초로 상기 대상 문서의 속성이 질문에 관련되었는지를 판단하는 판정부를 포함한다.A document management system according to another embodiment of the present invention includes a word extracting unit for extracting a first word from a reference document and extracting a second word from a target document, Calculating a question score of the second word on the basis of the question score of the first word, and calculating a score of the second word based on the question score of the second word, And determining whether the attribute of the target document is related to the question.

상기 단어 추출부는 엔그램(N-gram) 방식을 이용할 수 있다.The word extracting unit may use an N-gram method.

상기 판정부는, 상기 제2 단어의 질문 점수가 임계값 이상인 경우에는 상기 대상 문서의 속성이 질문에 관련된다고 판단하고, 상기 제2 단어의 질문 점수가 임계값 미만인 경우에는 상기 대상 문서의 속성이 질문에 관련되지 않는다고 판단할 수 있다.Wherein the judging unit judges that the attribute of the object document is related to the question when the question score of the second word is equal to or larger than the threshold value and if the question score of the second word is less than the threshold value, As shown in FIG.

상기 기존의 질문 문서는 질문 게시판에 게시된 문서를 포함할 수 있다.The existing question document may include a document posted on the question bulletin board.

상기 질문 점수는 상기 제1 단어가 질문에 등장할 확률을 점수화한 것일 수 있다.The question score may be a score of a probability that the first word appears in the question.

상기 판정부는, 상기 제2 단어에 대응하는 상기 제1 단어의 질문 점수를 합산하여 상기 제2 단어의 질문 점수를 계산하는 계산할 수 있다.The judging unit may calculate the question score of the second word by summing the question scores of the first word corresponding to the second word.

상기 판정부가 상기 대상 문서의 속성이 질문에 관련되었다고 판단한 경우, 이를 기초로 상기 대상 문서의 노출 순위를 조정하는 활용부를 더 포함할 수 있다.And an application unit for adjusting an exposure order of the target document based on the attribute of the target document when the determination unit determines that the attribute of the target document is related to the query.

본 발명에 따르면 웹 상에 등록된 문서의 제목과 내용을 기초로 문서가 질문에 관련되어 있는지를 판단하여 그에 따라 문서를 관리함으로써 검색 품질을 높일 수 있다.According to the present invention, it is possible to determine whether a document is related to a question based on the title and contents of a document registered on the web, and manage the document accordingly, thereby improving the search quality.

도 1은 본 발명의 한 실시예에 따른 문서 관리 시스템의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 문서 관리 방법의 흐름도이다.
1 is a block diagram of a document management system according to an embodiment of the present invention.
2 is a flowchart of a document management method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise. Also, the terms " part, "" module," and " module ", etc. in the specification mean a unit for processing at least one function or operation and may be implemented by hardware or software or a combination of hardware and software have.

도면을 참고하여 본 발명의 한 실시예에 따른 문서 관리 시스템 및 문서 관리 방법에 대하여 상세하게 설명한다.A document management system and a document management method according to an embodiment of the present invention will be described in detail with reference to the drawings.

도 1은 본 발명의 한 실시예에 따른 문서 관리 시스템의 블록도이다.1 is a block diagram of a document management system according to an embodiment of the present invention.

문서 관리 시스템(100)은 웹 상에 사용자 단말(200)에 의하여 등록되어 있는 문서의 속성이 질문에 관련된 지를 파악하고, 그 결과에 따라 문서를 활용하는 서버로서 문서 수신부(110), 단어 추출부(120), 질문 점수 계산부(130), 판정부(140) 및 활용부(150)를 포함한다.The document management system 100 recognizes whether the attribute of the document registered by the user terminal 200 is related to the question on the web, and as a server utilizing the document according to the result, the document receiving unit 110, A question score calculation unit 130, a determination unit 140, and an application unit 150. [

한편, 사용자 단말(200)은 사용자가 네트워크를 통하여 문서 관리 시스템(100)에 접속하고 통신하는 장치이며, 예를 들어 컴퓨터, 개인 휴대용 정보 단말기(Personal Digital Assistant, PDA), 이동 통신 단말기 및 텔레비전(television, TV)등 다양한 통신 장치가 사용될 수 있다.The user terminal 200 is a device through which a user accesses and communicates with the document management system 100 via a network and is a device that communicates with a user via a network such as a computer, a personal digital assistant (PDA) television, TV) can be used.

문서 관리 시스템(100)의 문서 수신부(110)는 웹 상에 등록되어 있는 기준 문서 및 판단 대상이 되는 대상 문서를 수신한다. 이때 기준 문서 및 대상 문서 각각은 카페, 블로그, 지식 검색 및 인터넷 게시판 등 다양한 수단을 통하여 사용자 단말(200)이 웹 상에 등록한 콘텐츠로서, 텍스트로 기록된 제목 및 본문 내용 중 적어도 하나를 포함할 수 있다. 문서 수신부(110)는 사용자 단말(200)로부터 직접 문서를 수신할 수도 있으며, 이미 사용자 단말(200)이 웹 상에서 등록한 문서를 수집함으로써 문서를 수신할 수도 있다.The document receiving unit 110 of the document management system 100 receives a reference document registered on the web and a target document to be determined. At this time, each of the reference document and the target document may include at least one of a title and a text content recorded as text, which is content registered on the web by the user terminal 200 through various means such as a cafe, a blog, a knowledge search, have. The document receiving unit 110 may receive the document directly from the user terminal 200 or may receive the document by collecting the document already registered on the web by the user terminal 200. [

단어 추출부(120)는 문서 수신부(110)가 수신한 기준 문서 또는 대상 문서에서 단어를 추출한다. 이때 단어 추출부(120)는 엔그램(N-gram) 방식으로 단어를 추출할 수 있으며, 예를 들어 문서의 제목이 "답변부탁해요?"인 경우, 추출된 단어는 "답변", "변부", "부탁", "탁해", "해요" 및 "요?"일 수 있다. 또한 단어 추출부(120)는 문서에 포함된 단어에 대하여 다양한 기준에 따라 추출할 수 있다.The word extracting unit 120 extracts a word from the reference document or the target document received by the document receiving unit 110. In this case, the word extracting unit 120 can extract words in an N-gram method. For example, when the title of the document is "Answer? Quot ;, "favor ", " favor ", " In addition, the word extracting unit 120 extracts words included in the document according to various criteria.

엔그램 방식은 한글 처리 분야에서 많이 쓰이는 단어 추출 방식의 하나이다. 텍스트를 분석하려면 먼저 문장에서 단어를 추출해야 하는데, 엔그램(N-Gram)은, 문자열을 N글자 단위로 나눈 뒤 각각을 단어로 처리한다. 여기서 N은 임의의 숫자가 될 수 있고, N이 2이면 바이그램(Bi-Gram), 3이면 트라이그램(Tri-Gram)이라고 한다. 예를 들어, "추천해주세요"라는 문장을 바이그램으로 분석하면, 앞에서 부터 찰ㅖ로 두 글자씩 뽑아서, "추천", "천해", "해주", "주세", "세요"로 쪼개지고, 트라이그램으로 하면, "추천해", "천해주", "해주세", "주세요"로 된다. 이렇게 쪼갠 엔그램을 단어로 보고, 각각의 질문 점수를 계산하면, "추천", "주세요" 같은 단어가 질문과 높은 연관도를 보일 수 있다.The engram method is one of the most common word extraction methods used in Hangul processing. To analyze the text, we first need to extract the words from the sentence. The N-gram divides the string into N characters and processes each word. Here, N can be any number, and when N is 2, it is called Bi-Gram and 3 is called Tri-Gram. For example, if you analyze the sentence "I recommend you" to Biagram, you can draw two letters from the beginning and cut it into two parts, "Recommended", "Heavenly", " If it is grams, it becomes "recommendation", "it is", "it is three", "please". When you look at these broken-down engrams as words and calculate each question score, words such as "recommend" and "please" can show a high correlation with the question.

질문 점수 계산부(130)는 단어 추출부(120)가 기준 문서에서 추출한 단어 각각에 대하여 질문 점수를 계산한다. 여기서 질문 점수는 각 단어가 질문에 연관된 단어일 가능성을 판단하는 지표이다. 질문 점수 계산부(130)는 기존의 문서를 기초로 각 단어가 기준 문서에 출현한 빈도를 계산하여 이에 기초하여 단어가 질문으로 인정되는 문서에 등장할 확률을 점수화하여 질문 점수를 계산한다. 이때 기존의 문서는 질문으로 인정되는 문서 및 질문으로 인정되지 않는 문서로 분류되어 이용된다. 질문으로 인정되는 문서는 예를 들어 포털 사이트에서 제공하는 질문 게시판 등에 올라온 문서가 될 수 있다.The question score calculation unit 130 calculates a question score for each of the words extracted from the reference document by the word extraction unit 120. [ Here, the question score is an indicator for determining whether each word is a word associated with the question. The question score calculation unit 130 calculates the frequency of appearance of each word in the reference document based on the existing document, and calculates the question score by scoring the probability that the word appears in the document recognized as a question based on the frequency. At this time, existing documents are classified as documents recognized as questions and documents not recognized as questions. A document recognized as a question can be, for example, a document posted on a question board provided by a portal site.

판정부(140)는 기준 문서에서 추출한 단어의 질문 점수를 기초로, 단어 추출부(120)가 대상 문서에서 추출한 단어에 대하여 각 단어에 대한 질문 점수를 결정하고 이를 합산한다. 판정부(140)는 대상 문서에서 추출한 단어에 해당하는 단어를 기준 문서에서 추출한 단어에서 찾아서, 대상 문서에서 추출한 단어 각각의 질문 점수를 추출한다. 그리고 판정부(140)는 대상 문서에서 추출한 단어 각각의 질문 점수를 합산하여, 질문 점수의 총합을 계산한다.Based on the question scores of the words extracted from the reference document, the judgment section 140 determines the question scores for the respective words for the words extracted from the target document by the word extraction section 120 and adds them together. The judgment unit (140) searches the words extracted from the reference document for the words corresponding to the words extracted from the target document, and extracts the question scores of the words extracted from the target document. Then, the judgment unit 140 adds up the question scores of the words extracted from the target document, and calculates the sum of the question scores.

판정부(140)는 질문 점수의 총합이 임계값 이상이면 대상 문서의 속성이 질문에 관련되어 있다고 판정하고, 질문 점수의 총합이 임계값 미만이면 대상 문서의 속성이 질문에 관련되어 있지 않다고 판단한다. If the sum of the question scores is greater than or equal to the threshold value, the judgment section 140 judges that the attribute of the object document is related to the question. If the sum of the question scores is less than the threshold value, the judgment section 140 judges that the attribute of the object document is not related to the question .

활용부(150)는 대상 문서 중에서 판정부(140)가 질문 문서로 판단한 경우 이를 검색 결과 목록의 노출 순위에 활용한다. 검색 결과 목록의 노출 순위는 문서의 속성을 이용하는데, 예를 들어 카페에 등록된 문서는 길이 및 댓글 개수 등을 이용한다. 만일 문서가 질문 문서라면 댓글이나 답변이 없는 경우 사용자 단말(200)에게 제공하는 정보로서 가치가 떨어진다. 따라서 판정부(140)가 대상 문서를 질문 문서라고 판단한 경우에는, 대상 문서를 검색 결과 목록으로 노출하는 경우 댓글 또는 답변의 유무 및 개수에 가중치를 두어 노출 순위를 조정할 수 있다.When the determination unit 140 determines that the target document is a question document, the utilization unit 150 uses the same as the exposure rank of the search result list. The exposure ranking of the search result list uses the attributes of the document. For example, the document registered in the cafe uses the length and the number of comments. If the document is a question document, the information is provided as information to be provided to the user terminal 200 if there is no comment or answer. Therefore, when the determination unit 140 determines that the target document is a question document, when the target document is exposed as a search result list, the exposure rank can be adjusted by weighting the presence or absence and the number of comments or answers.

이외에도 활용부(150)는 질문 문서에 대하여 적절한 답변이 제공될 수 있도록 관리하는 등 다양한 방법으로 활용할 수 있다.In addition, the utilization unit 150 can be utilized in various ways such as managing to provide an appropriate answer to the question document.

이제 도 2를 참고하여 본 발명의 다른 실시예에 따른 문서 관리 방법에 대하여 상세하게 설명한다.A document management method according to another embodiment of the present invention will now be described in detail with reference to FIG.

도 2는 본 발명의 다른 실시예에 따른 문서 관리 방법의 흐름도이다.2 is a flowchart of a document management method according to another embodiment of the present invention.

도 2를 참고하면, 문서 관리 시스템(100)은 기준 문서에서 단어를 추출한다(S210). 이때 단어는 기준 문서의 제목 또는 본문 내용에서 추출될 수 있다.Referring to FIG. 2, the document management system 100 extracts words from a reference document (S210). At this time, the word can be extracted from the title or the contents of the reference document.

그런 후 문서 관리 시스템(100)은 기준 문서에서 추출한 단어가 기존의 문서, 즉, 질문으로 인정되는 문서 및 질문으로 인정되지 않는 문서에 출현하는 빈도를 계산한다(S220). Thereafter, the document management system 100 calculates the frequency of occurrence of the word extracted from the reference document in an existing document, that is, a document recognized as a question and a document not recognized as a question (S220).

이어서 기준 문서에서 추출한 단어의 출현 빈도를 기초로 각 단어의 질문 점수를 계산한다(S230). 질문 점수는 기준 문서에서 추출한 단어가 질문 문서에 출현할 확률을 점수화 한 것이다.Next, the question score of each word is calculated based on the occurrence frequency of the word extracted from the reference document (S230). The question score is the score of the probability that the word extracted from the reference document appears in the question document.

문서 관리 시스템(100)은 판단의 대상이 되는 대상 문서를 수신하고(S240), 대상 문서에서 단어를 추출한다(S250).The document management system 100 receives a target document to be determined (S240), and extracts a word from the target document (S250).

그런 후 문서 관리 시스템(100)은 대상 문서에서 추출한 단어 각각의 질문 점수를 합산하여 합산 점수가 임계값 이상인지 미만인지 여부를 기초로 대상 문서의 속성이 질문에 관련되어 있는지를 판단한다(S260).Then, the document management system 100 adds up the question scores of the words extracted from the target document, and determines whether the attribute of the target document is related to the question based on whether the total score is equal to or larger than the threshold value (S260) .

문서에는 질문이 포함되어 있을 수 있으며, 그런 경우 질문에 대응하는 관리를 수행할 필요가 있다. 그런데 "애플 노트북 어떤가요?" 또는 "이사 비용 얼마나 나올까요?"와 같은 직접적인 질문이 있는 반면에, "좋은 향수 추천 부탁드립니다" 또는 "영작 도와주세요"와 같이 답변을 요구하는 간접적인 질문이 있다. 따라서 직접적인 질문 파악만으로는 답변을 요구하는 간접적인 질문까지 파악하기 어려울 수 있다. 본 발명에 따르면, 문서에 포함되어 있는 단어를 분석하여 문서의 의도가 답변을 요구하는 질문 문서인지를 효과적으로 분석하여 문서 관리를 효율적으로 수행할 수 있다.The document may contain questions, and in such cases, you need to perform management responsive to the questions. But what about an Apple laptop? Or "How much does it cost to move?", There are indirect questions that require an answer, such as "I would like to recommend a good fragrance" or "Please help me." Therefore, it may be difficult to grasp indirect questions that require answers simply by understanding direct questions. According to the present invention, it is possible to efficiently perform document management by analyzing words included in a document and effectively analyzing whether the intention of the document is a question document requiring an answer.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다. The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (13)

문서 관리 장치가 대상 문서의 속성을 판단하여 관리하는 방법으로서,
기준 문서에서 복수의 제1 단어를 추출하는 단계,
상기 복수의 제1 단어 각각이 답변을 요구하는 기존의 질문 문서에 출현하는 빈도를 기초로 상기 복수의 제1 단어 각각의 질문 점수를 계산하는 단계,
상기 대상 문서에서 복수의 제2 단어를 추출하는 단계,
상기 복수의 제1 단어 각각의 질문 점수를 기초로 상기 복수의 제2 단어 각각의 질문 점수를 계산하는 단계, 그리고
상기 복수의 제2 단어 각각의 질문 점수를 합산하여 질문 점수의 총합을 계산하고, 상기 질문 점수의 총합을 기초로 상기 대상 문서의 속성이 질문에 관련되었는지를 판단하는 단계
를 포함하고,
상기 질문 문서는 질문으로 인정되는 문서를 포함하고,
상기 제1 단어의 질문 점수는 해당 제1 단어가 상기 질문 문서에 등장할 확률을 점수화한 값인 문서 관리 방법.
A method for a document management apparatus to determine and manage an attribute of a target document,
Extracting a plurality of first words from a reference document,
Calculating a question score of each of the plurality of first words based on a frequency at which each of the plurality of first words appears in an existing question document requiring an answer;
Extracting a plurality of second words from the target document,
Calculating a question score of each of the plurality of second words based on a question score of each of the plurality of first words, and
Calculating sum of question scores by summing question scores of each of the plurality of second words, and determining whether the attribute of the target document is related to the question based on the sum of the question scores
Lt; / RTI >
The question document includes a document recognized as a question,
Wherein the query score of the first word is a value obtained by scoring a probability that the first word appears in the question document.
제1항에서,
상기 복수의 제1 단어를 추출하는 단계 또는 상기 복수의 제2 단어를 추출하는 단계는
엔그램(N-gram) 방식을 이용하는 문서 관리 방법.
The method of claim 1,
The step of extracting the plurality of first words or the step of extracting the plurality of second words
A document management method using an N-gram scheme.
제1항에서,
상기 판단하는 단계는,
상기 질문 점수의 총합이 임계값 이상인 경우에는 상기 대상 문서의 속성이 질문에 관련된다고 판단하는 단계, 그리고
상기 질문 점수의 총합이 임계값 미만인 경우에는 상기 대상 문서의 속성이 질문에 관련되지 않는다고 판단하는 단계
를 포함하는 문서 관리 방법.
The method of claim 1,
Wherein the determining step comprises:
Determining that the attribute of the object document is related to the query if the sum of the question scores is greater than or equal to a threshold; and
Determining that the attribute of the target document is not relevant to the query if the sum of the question scores is less than a threshold;
The document management method comprising:
제1항에서,
상기 질문 문서는 질문 게시판에 게시된 문서를 포함하는 문서 관리 방법.
The method of claim 1,
Wherein the question document includes a document posted on a question bulletin board.
삭제delete 삭제delete 기준 문서에서 복수의 제1 단어를 추출하고 대상 문서에서 복수의 제2 단어를 추출하는 단어 추출부,
상기 복수의 제1 단어 각각이 답변을 요구하는 기존의 질문 문서에 출현하는 빈도를 기초로 상기 복수의 제1 단어 각각의 질문 점수를 계산하는 질문 점수 계산부, 그리고
상기 복수의 제1 단어 각각의 질문 점수를 기초로 상기 복수의 제2 단어 각각의 질문 점수를 계산하고, 상기 복수의 제2 단어 각각의 질문 점수를 합산하여 질문 점수의 총합을 계산하며, 상기 질문 점수의 총합을 기초로 상기 대상 문서의 속성이 질문에 관련되었는지를 판단하는 판정부
를 포함하고,
상기 질문 문서는 질문으로 인정되는 문서를 포함하고,
상기 제1 단어의 질문 점수는 해당 제1 단어가 상기 질문 문서에 등장할 확률을 점수화한 값인 문서 관리 시스템.
A word extracting unit for extracting a plurality of first words from the reference document and extracting a plurality of second words from the target document,
A question score calculation unit for calculating a question score of each of the plurality of first words based on a frequency at which each of the plurality of first words appears in an existing question document requiring an answer;
Calculating a total score of each of the plurality of second words by summing the total score of the plurality of second words based on the score of each of the plurality of first words, Determining whether the attribute of the target document is related to the question based on the sum of the scores,
Lt; / RTI >
The question document includes a document recognized as a question,
Wherein the query score of the first word is a value obtained by scoring a probability that the first word appears in the question document.
제7항에서,
상기 단어 추출부는 엔그램(N-gram) 방식을 이용하는 문서 관리 시스템.
8. The method of claim 7,
Wherein the word extracting unit uses an N-gram method.
제7항에서,
상기 판정부는,
상기 질문 점수의 총합이 임계값 이상인 경우에는 상기 대상 문서의 속성이 질문에 관련된다고 판단하고, 상기 질문 점수의 총합이 임계값 미만인 경우에는 상기 대상 문서의 속성이 질문에 관련되지 않는다고 판단하는 문서 관리 시스템.
8. The method of claim 7,
The judging unit judges,
Determining that the attribute of the target document is related to the question if the sum of the question scores is greater than or equal to the threshold value and determining that the attribute of the target document is not related to the question if the sum of the question scores is less than the threshold; system.
제7항에서,
상기 질문 문서는 질문 게시판에 게시된 문서를 포함하는 문서 관리 시스템.
8. The method of claim 7,
Wherein the question document includes a document posted on a question bulletin board.
삭제delete 삭제delete 제7항에서,
상기 판정부가 상기 대상 문서의 속성이 질문에 관련되었다고 판단한 경우, 이를 기초로 상기 대상 문서의 노출 순위를 조정하는 활용부
를 더 포함하는 문서 관리 시스템.
8. The method of claim 7,
When the determination unit determines that the attribute of the target document is related to the query,
The document management system further comprising:
KR1020120092340A 2012-08-23 2012-08-23 System and method of managing document KR101402339B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120092340A KR101402339B1 (en) 2012-08-23 2012-08-23 System and method of managing document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120092340A KR101402339B1 (en) 2012-08-23 2012-08-23 System and method of managing document

Publications (2)

Publication Number Publication Date
KR20140026772A KR20140026772A (en) 2014-03-06
KR101402339B1 true KR101402339B1 (en) 2014-06-02

Family

ID=50641168

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120092340A KR101402339B1 (en) 2012-08-23 2012-08-23 System and method of managing document

Country Status (1)

Country Link
KR (1) KR101402339B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101670432B1 (en) 2015-06-24 2016-11-09 주식회사 아이온커뮤니케이션즈 Electronic document management system based on visualization
KR20190090646A (en) * 2018-01-25 2019-08-02 필아이티 주식회사 Method and mobile apparatus for performing word prediction

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165718A (en) 2007-01-05 2008-07-17 Toyota Central R&D Labs Inc Intention determination device, intention determination method, and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165718A (en) 2007-01-05 2008-07-17 Toyota Central R&D Labs Inc Intention determination device, intention determination method, and program

Also Published As

Publication number Publication date
KR20140026772A (en) 2014-03-06

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US8972413B2 (en) System and method for matching comment data to text data
US9405805B2 (en) Identification and ranking of news stories of interest
US9201880B2 (en) Processing a content item with regard to an event and a location
US9189470B2 (en) Generation of explanatory summaries
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
JP5952711B2 (en) Prediction server, program and method for predicting future number of comments in prediction target content
KR101429397B1 (en) Method and system for extracting core events based on message analysis in social network service
KR101638535B1 (en) Method of detecting issue patten associated with user search word, server performing the same and storage medium storing the same
CN105653547A (en) Method and device for extracting keywords of text
CN112579729A (en) Training method and device for document quality evaluation model, electronic equipment and medium
JP5406794B2 (en) Search query recommendation device and search query recommendation program
CN107665442B (en) Method and device for acquiring target user
KR101402339B1 (en) System and method of managing document
US9336317B2 (en) System and method for searching aliases associated with an entity
CN112926297B (en) Method, apparatus, device and storage medium for processing information
KR101614551B1 (en) System and method for extracting keyword using category matching
JP5180894B2 (en) Attribute expression acquisition method, apparatus and program
St Chifu et al. Web harvesting and sentiment analysis of consumer feedback
JP2013254366A (en) Information processing device and related word determination method
Zhao et al. Mining Service Tags with Enriched Information from the Internet
Gu et al. Mining popular menu items of a restaurant from web reviews
KR101541297B1 (en) Method and apparatus of generating multilingual semantic network based on the user description

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170322

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 9