본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only the embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention pertains. It is provided to fully inform the holder of the scope of the invention, and the invention is only defined by the scope of the claims. The same reference numerals refer to the same components throughout the specification.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, when it is determined that a detailed description of known functions or configurations may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. In addition, terms to be described later are terms defined in consideration of functions in an embodiment of the present invention, which may vary according to a user's or operator's intention or practice. Therefore, the definition should be made based on the contents throughout this specification.
도 1은 실시예에 따른 프로필 생성 서버의 대략적인 데이터 처리블록을 나타낸 도면이다.1 is a diagram showing an approximate data processing block of a profile creation server according to an embodiment.
도 1을 참조하면, 실시예에 따른 프로필 생성서버는 수집모듈(110), 데이터베이스(130), 추출모듈(150) 및 생성모듈(170)을 포함하여 구성될 수 있다. Referring to FIG. 1, the profile generation server according to the embodiment may include a collection module 110, a database 130, an extraction module 150, and a generation module 170.
본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.As used herein, the term'module' should be interpreted to include software, hardware, or a combination thereof, depending on the context in which the term is used. For example, the software may be machine language, firmware, embedded code, and application software. As another example, the hardware can be a circuit, processor, computer, integrated circuit, integrated circuit core, sensor, micro-electro-mechanical system (MEMS), passive device, or combinations thereof.
수집모듈(110)은 여러 웹 공간 및 외부서버에서 문서를 주기적으로 수집한다. 예컨대, 수집모듈(110)은 뉴스사이트, 블로그 및 각종 SNS 등의 웹 공간에서 기사, 칼럼, 인터뷰 등이 기록된 문서 데이터를 주기적으로 수집한다.The collection module 110 periodically collects documents from various web spaces and external servers. For example, the collection module 110 periodically collects document data in which articles, columns, interviews, and the like are recorded in web sites such as news sites, blogs, and various SNS.
데이터베이스(130)는 수집된 문서와 문서의 출처 및 웹 공간 정보와 프로필 생성 정보 등 프로필 정보 생성을 위해 필요한 일련의 데이터를 저장한다. 예컨대, 데이터베이스(130)에는 프로필 정보 생성에 필요한 키워드, 태그 등이 저장될 수 있다. 실시예에서 키워드는 서버에 입력되는 문장에서 추출한 단어와 고유명사로서, 프로필 정보를 나타내는 컨텐츠 데이터이다. 태그는 키워드 및 프로필 정보의 카테고리로서, 특정 키워드의 상위정보가 될 수 있다. 예컨대, 키워드가 '부장' 인 경우, '부장' 키워드의 태그는 '직책'이 될 수 있고, 키워드가 '30세' 인 경우 '30세' 키워드의 태그는 '나이' 가 될 수 있다. 데이터베이스(130)에는 키워드와 태그 및 키워드와 태그로 생성된 프로필 정보가 누적 저장되고, 동일한 인물의 변경되는 프로필 정보는 업데이트하여 저장한다. The database 130 stores a series of data necessary for generating profile information, such as the collected document and the source of the document and web space information and profile creation information. For example, keywords, tags, and the like necessary for generating profile information may be stored in the database 130. In an embodiment, keywords are content data representing profile information as words and proper nouns extracted from sentences input to the server. The tag is a category of keyword and profile information, and may be higher information of a specific keyword. For example, when the keyword is'manager', the tag of the'manager' keyword may be'position', and when the keyword is '30', the tag of the '30' keyword may be'age'. The database 130 accumulates and stores keywords and tags and profile information generated by keywords and tags, and updates and stores changed profile information of the same person.
추출모듈(150)은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출한다. 이후, 키워드를 구성하는 글자에 프로필 카테고리 정보를 나타내는 태그를 태깅(tagging)하여 프로필 예비정보를 생성한다. 실시예에서 서버로 '주식회사 엘비전의 백현아 대표매니저는 업계경력이 10년이상인 베테랑이다' 라는 문장이 입력된 경우, 키워드로 '엘비전'을 추출하면 '엘비전'을 구성하는 글자 하나하나에 태그를 부가한다. 구체적으로, '엘_회사, 비_회사, 전_회사' 와 같은 형태의 데이터가 프로필 예비정보가 될 수 있다. 실시예에서 키워드에 부가되는 태그정보는 특정 키워드와 인접한 다른 키워드를 통해 선정하거나, 데이터베이스에 누적 학습된 키워드 태그정보를 로딩하여 이용할 수 있다. 앞의 예를 이어 설명하면, 엘비전은 인접한 다른 키워드인 주식회사 라는 단어를 인식하여 엘비전 이라는 키워드를 구성하는 각 단어에 부가되는 태그정보를 '회사'로 선정할 수 있다.The extraction module 150 analyzes sentences included in the document from which profile information is to be extracted, and extracts keywords from the sentences. Subsequently, tag preliminary information is generated by tagging the tags constituting the keyword with tags indicating the profile category information. In the embodiment, if the sentence'Baek Hyun-a, the representative manager of Elvision, Inc. is a veteran with over 10 years of industry experience' is entered as a server, extracting'Elvision' as a keyword in each letter constituting'Elvision' Add tags. Specifically, data such as'L_company, non-company, all_company' may be profile preliminary information. In an embodiment, the tag information added to the keyword may be selected through other keywords adjacent to the specific keyword, or may be used by loading accumulated keyword tag information in the database. Continuing from the previous example, Elvision can recognize the word adjacent to another keyword, Inc., and select tag information added to each word constituting the keyword Elvision as a'company'.
생성모듈(170)은 추출된 프로필 예비정보를 수집하여 키워드를 생성하고, 키워드는 프로필 정보 카테고리에 따라 분류한다. 예컨대 생성모듈(170)은 동일한 태그가 연속으로 각 글자에 부가된 경우, 동일한 태그를 가지고 있는 글자들을 병합하여 키워드를 생성한다. 구체적으로 회사 태그가 연속되어 나타나는 경우, 동일한 태그가 태깅된 '엘','비','전' 이라는 단어를 각각 수집하고 이를 병합하여 '엘비전' 이라는 키워드를 생성한다. 이후 생성모듈(170)은 키워드를 키워드에 태깅된 태그 정보에 따라 분류 정렬한 프로필 정보를 생성하고 이를 디스플레이 한다. 위의 예시를 이어 설명하면, '회사: 엘비전' 이라는 형태로 키워드와 키워드에 부여된 태그정보를 분류한 프로필 정보를 생성해 낼 수 있다. The generation module 170 collects the extracted profile preliminary information to generate keywords, and classifies the keywords according to the profile information category. For example, when the same tag is continuously added to each letter, the generation module 170 merges the letters having the same tag to generate a keyword. Specifically, when the company tags appear consecutively, the words'L','B', and'I' tagged with the same tag are respectively collected and merged to generate the keyword'LVI'. Subsequently, the generation module 170 generates and displays profile information classified by sorting keywords according to tag information tagged to the keyword. Continuing the above example, it is possible to generate profile information that classifies keywords and tag information assigned to keywords in the form of'Company: Elvision'.
또한, 실시예에서 생성모듈(170)은 키워드 생성 후 이를 저장하고, 새로운 입력데이터 분석 시 태깅된 단어를 병합하는 과정에서 병합된 단어가 기 저장된 키워드와 일정비율이상 동일한 경우, 기 저장된 키워드를 추천할 수 있다. 위의 예를 이어 설명하면, 프로필 생성서버(100)가 '엘비전'이라는 회사이름 키워드를 생성하고 기 저장한 경우, 생성모듈(170)이 '엘_회사, 비_회사' 라는 연속된 글자를 입력 받으면, 기 저장된 '엘비전' 이라는 키워드를 구성하는 글자 및 태그의 일치율을 산출하고, 산출된 일치율이 일정수준(기준값) 이상인 경우, '엘비전'을 프로필 정보의 회사에 해당하는 키워드로 자동 추출할 수 있다. 실시예에서는 생성모듈(170)이 '엘비'까지 인식하면 '엘비전'이라는 기 저장된 키워드와 66%의 일치율이 산출되므로, 2개의 글자와 2개 글자의 태그까지만 인식한 후 '엘비전' 이라는 키워드를 생성모듈(170)이 자동 추천할 수 있다. 실시예에서 키워드 자동추천을 수행하는 일치 율의 기준값은 기 저장된 키워드를 구성하는 글자수와 태그 수에 따라 달라질 수 있다. 예컨대, 3글자로 구성된 키워드의 경우 2개의 글자까지 글자와 태그가 동일하면 키워드를 자동 추천하는 66% 를 기준값으로 설정할 수 있고, 5글자로 구성된 키워드의 경우 3글자까지 글자와 태그정보가 동일하면 키워드를 자동 추천하는 60%를 기준값으로 설정할 수 있다. In addition, in the embodiment, the generation module 170 stores the keyword after generating it, and in the process of merging the tagged words when analyzing new input data, if the merged word is equal to or more than a predetermined percentage, the previously stored keyword is recommended. can do. Continuing the above example, if the profile creation server 100 generates a company name keyword'Elvision' and has already saved it, the generation module 170 continues the letters'L_company, non-company'. Upon input, calculates the match rate of the letters and tags constituting the previously stored keyword'Elvision', and when the calculated match rate is above a certain level (reference value),'Elvision' is a keyword corresponding to the company of the profile information. Automatic extraction is possible. In the embodiment, when the generation module 170 recognizes even'Elvy', a matching rate of 66% with the pre-stored keyword'Elvision' is calculated, and thus only tags of 2 letters and 2 letters are recognized and then called'Elvision'. The keyword creation module 170 may automatically recommend the keyword. In an embodiment, the reference value of the matching rate for performing automatic keyword recommendation may vary according to the number of characters and tags constituting the pre-stored keyword. For example, in the case of a keyword composed of 3 letters, if the letters and tags are the same as up to 2 letters, 66% of automatically recommending the keyword can be set as a reference value. It is possible to set 60% to automatically recommend keywords as a reference value.
도 2는 실시예에 따른 프로필 정보생성서버의 데이터 처리 블록을 보다 상세하게 나타낸 도면이고 도 3은 실시예에 따른 프로필 정보 생성 서버의 머신러닝 과정을 설명하기 위한 도면이다. 2 is a view showing in more detail the data processing block of the profile information generation server according to the embodiment, and FIG. 3 is a view for explaining the machine learning process of the profile information generation server according to the embodiment.
도 2를 참조하면, 실시예에 따른 프로필 정보생성 서버의 데이터베이스는 키워드 저장부(131), 태그저장부(133), 프로필 예비정보 저장부(135)로 구성될 수 있고, 추출모듈(150)은 학습부(151), 추출부(153) 및 태깅부(155)를 포함하여 구성될 수 있고, 생성모듈(170)은 생성부(171), 분류부(173) 및 출력부(175)를 포함하여 구성될 수 있고, 연산모듈(190)은 카운팅부(191) 및 연산부(193)를 포함하여 구성될 수 있다.Referring to Figure 2, the database of the profile information generation server according to the embodiment may be composed of a keyword storage unit 131, a tag storage unit 133, a profile preliminary information storage unit 135, the extraction module 150 The learning unit 151, the extraction unit 153 and the tagging unit 155 may be configured, and the generation module 170 may include a generation unit 171, a classification unit 173, and an output unit 175. It may be configured to include, the calculation module 190 may be configured to include a counting unit 191 and the calculation unit 193.
데이터베이스의 키워드 저장부(131)에는 프로필 정보가 되는 고유명사와 단어가 분류되어 저장된다. 태그 저장부(133)에는 프로필 정보의 세부 항목 정보가 저장된다. 예컨대 태그 저장부에는 직업, 나이, 생년월일, 소속, 기관, 직책, 경력, 특이사항, 주소, 직장, 연매출 등 프로필 정보를 구성하는 카테고리 정보들이 저장된다. 프로필 예비정보 저장부(135)는 키워드를 구성하는 글자에 태그가 부가된 프로필 예비정보가 저장된다. In the keyword storage unit 131 of the database, proper nouns and words as profile information are classified and stored. The tag storage unit 133 stores detailed item information of the profile information. For example, the tag storage unit stores category information constituting profile information such as job, age, date of birth, affiliation, institution, position, career, peculiarity, address, job, annual sales. The profile preliminary information storage unit 135 stores profile preliminary information tagged with letters constituting a keyword.
추출모듈(150)의 학습부(151)는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다. 실시예에서는 Named Entity Recognition(이하 NER)을 가능하게 하기 위해 기계학습의 모델을 학습할 수 있다. The learning unit 151 of the extraction module 150 analyzes the meaning of the words included in the sentence and the location information in the sentence of the word to infer the meaning and correlation between words, and machine learning to extract profile preliminary information To perform. In an embodiment, a model of machine learning may be trained to enable Named Entity Recognition (hereinafter NER).
실시예에서, 생성모듈(170)은 단어를 구성하는 특정글자의 태깅오류를 수정하기 위해 특정글자에 인접한 글자의 태깅정보를 이용할 수 있다. 예컨대, 입력된 문장에서 '성'과 '명'을 제외한 나머지 태그 분석결과, 연속된 태그가 2개 이상 나오지 않는 경우 생성모듈(170)은 특정글자의 앞 글자와 뒤 글자인 주변 글자들의 태그를 인식한다. 인식된 주변글자들인 앞 글자와 뒤 글자의 태그가 동일 종류의 태그인 경우 중간글자인 특정글자의 태그를 앞글자 및 뒤글자의 태그와 동일한 태그로 변경한다. 이후, 태그가 변경된 글자까지 포함한 키워드를 생성한다. 구체적으로 생성모듈(170)은 A_tag1, B_tag2, C_tag1, D_tag1, E_tag1 인 경우 B를 tag1으로 변경하고 'ABCDE'를 tag1으로 인식할 수 있다. 이를 통해, 태깅 오류로 인한 프로필 생성의 에러율을 낮출 수 있다. In an embodiment, the generation module 170 may use tagging information of letters adjacent to a specific letter to correct the tagging error of the specific letter constituting the word. For example, as a result of analyzing the remaining tags excluding'last name' and'first name' in the input sentence, when two or more consecutive tags do not appear, the generation module 170 displays the tags of the surrounding letters that are the first letter and the last letter of the specific letter. Recognize. If the tags of the front and back letters, which are the recognized surrounding letters, are the same type of tag, the tags of the specific letters, which are intermediate letters, are changed to the same tags as the tags of the front letters and the back letters. Afterwards, a keyword including the text with the changed tag is generated. Specifically, in the case of A_tag1, B_tag2, C_tag1, D_tag1, and E_tag1, the generation module 170 may change B to tag1 and recognize'ABCDE' as tag1. Through this, it is possible to lower the error rate of profile generation due to tagging error.
도 3을 참조하여, 추출모듈의 머신러닝과정을 설명하면, 추출모듈은 데이터베이스에서 키워드와 분류가 태깅된 프로필 예비단어 데이터를 전달 받는다. 이후 전달된 데이터로 학습(training)과정을 거쳐 프로필 정보에 대한 모델 (model)을 생성한다. 실시예에서는 LSTM(RNN)이나 CNN을 비롯한 다양한 Neural Network를 사용할 수 있다. 이후, 생성된 모델을 바탕으로 새로운 입력에 대한 예측(prediction)을 수행한다. 즉 추출부(151)는 머신러닝 결과에 따라 문서를 입력 받으면 자동으로 키워드를 추출하게 된다. Referring to FIG. 3, when the machine learning process of the extraction module is described, the extraction module receives profile pre-word data tagged with keywords and classifications from the database. Thereafter, a model for profile information is generated through a training process using the transmitted data. In an embodiment, various neural networks including LSTM (RNN) and CNN may be used. Subsequently, prediction on a new input is performed based on the generated model. That is, the extraction unit 151 automatically extracts keywords when a document is input according to the result of machine learning.
태깅부(155)는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여한다. 실시예에서는 키워드와 인접한 다른 단어가 프로필 카테고리 정보를 나타내는 태그일 경우, 이를 키워드의 각 글자에 부가할 수 있다.The tagging unit 155 assigns a tag indicating the category or metadata of the keyword to each letter included in the extracted keyword. In an embodiment, when another word adjacent to the keyword is a tag indicating profile category information, it may be added to each letter of the keyword.
생성모듈(170)은 추출모듈(150)로부터 글자 각각에 태그가 부여된 키워드를 수집하고, 연속적으로 태깅된 글자를 병합하여 프로필 정보인 키워드를 생성한다. 이후 분류부(173)는 생성된 키워드를 키워드가 나타내는 프로필 정보 카테고리에 따라 분류한다. 예컨대 분류부(172)는 키워드에 부여된 태그정보에 따라 분류할 수 있다. The generation module 170 collects keywords tagged to each letter from the extraction module 150 and continuously merges the tagged text to generate keywords that are profile information. Thereafter, the classification unit 173 classifies the generated keyword according to the profile information category indicated by the keyword. For example, the classification unit 172 may classify according to tag information given to keywords.
출력부(175)는 키워드를 태그정보에 따라 정렬한 프로필 정보를 디스플레이 한다.The output unit 175 displays profile information in which keywords are sorted according to tag information.
연산모듈(191)은 수집된 문서에서 키워드와 태그가 추출된 횟수에 따라 프로필 중요도를 산출하고, 동일인물의 프로필 정보로 특정 키워드가 추출되는 경우, 추출된 키워드에 대한 신뢰도를 산출할 수 있다. 이를 위해 카운팅부(191)는 키워드와 태그가 추출된 횟수를 카운팅하고, 연산부(193)는 동일한 인물에 대한 동일 키워드 카운팅 횟수에 비례하는 키워드 신뢰도를 산출한다. The calculation module 191 may calculate profile importance according to the number of times keywords and tags are extracted from the collected document, and when a specific keyword is extracted from the profile information of the same person, reliability of the extracted keyword may be calculated. To this end, the counting unit 191 counts the number of times keywords and tags have been extracted, and the calculating unit 193 calculates keyword reliability proportional to the same keyword counting number for the same person.
실시예에서 생성모듈(170)은 동명이인에 대한 프로필 정보를 각각 독립적으로 생성하여 관리하거나, 동일인물에 대한 프로필이 변경된 경우 이를 업데이트 할 수 있다.In an embodiment, the generation module 170 may independently generate and manage profile information for the same person, or update the profile for the same person when the profile is changed.
생성모듈(170)은 생성된 프로필 정보에서 성명을 비교하고, 성명이 같은 경우, 성명 이외의 다른 카테고리의 프로필정보를 비교하여 동일한 성명 외 동일한 프로필 정보가 존재하지 않는 경우, 동명이인에 대한 새로운 프로필 정보를 생성할 수 있다. 또한, 실시예에서 생성모듈(170)은 동일한 이름으로 생성된 프로필 정보에서 나이 및 생년월일 등 신원확인을 위한 고유정보를 비교한 결과에 따라 생성된 프로필 정보가 동일인의 프로필인지 판단할 수 있다. 이름과 고유정보가 일치한다면, 다른 카테고리의 프로필 정보를 비교하고, 다른 프로필 정보가 존재하는 경우, 프로필 정보가 생성된 시점에 따라 이전프로필을 업데이트 할 수 있다.The generation module 170 compares the names in the generated profile information, and if the names are the same, compares the profile information of other categories other than the names, and if the same profile information other than the same name does not exist, a new name for the person with the same name Profile information can be created. In addition, in the embodiment, the generation module 170 may determine whether the generated profile information is the same person's profile according to a result of comparing unique information such as age and date of birth from profile information generated with the same name. If the name and unique information match, profile information of different categories is compared, and if other profile information exists, the previous profile can be updated according to the time when the profile information was generated.
도 4는 실시예에 따른 프로필 정보 생성 서버의 학습과정 및 프로필 정보생성 서버의 학습데이터를 설명하기 위한 도면이다.4 is a view for explaining a learning process of the profile information generation server and learning data of the profile information generation server according to the embodiment.
도 4를 참조하면, 서버에 “대학에서 영상학을 전공한 3D 아이픽쳐스 신용수 대표는 세계 최초로 수중 3D 촬영장비를 개발해 특허 등록을 마쳤다.” (10)의 문장을 입력하면, 서버는 띄어쓰기나 단어 및 형태소 구별에 관계없이 문장을 구성하는 글자를 하나씩 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 4에 도시된 바와 같이, '영상학' 이라는 키워드를 구성하는 '영' 글자에는 전공 태그가 부여되고, 대표라는 키워드를 구성하는 '대'라는 글자에는 직책 태그가 부여된다. 도 4의 표 (a)에 도시된 글자, 태그 및 데이터는 글자에 태그가 부여된 프로필 예비정보는 프로필 정보생성서버의 학습데이터로 사용된다.Referring to FIG. 4, on the server, “CEO Shin Yong-soo of 3D Eye Pictures who majored in imaging at the university developed the world's first underwater 3D imaging equipment and completed patent registration.” When the sentence of (10) is entered, the server separates the letters constituting the sentence one by one regardless of spaces or words and morphemes. Subsequently, through the semantic analysis of each word, a tag is added to a letter that can indicate profile information. As shown in FIG. 4, the major tag is assigned to the letter'zero' constituting the keyword'imageology', and the title tag is assigned to the letter'large' constituting the keyword representative. Characters, tags and data shown in the table (a) of FIG. 4 are used as learning data of the profile information generation server as profile preliminary information tagged with characters.
실시예에서는 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 4의 b와 같은 프로필 정보를 생성할 수 있다.In an embodiment, when profile preliminary information is generated by tagging each letter, a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and b of FIG. You can create profile information such as
종래 한글 텍스트를 의미 분석하여 프로필 정보와 같은 유효정보를 추출할 때는 일반적으로 형태소 분석기를 사용한 결과로 나온 단어를 하나의 의미 단위로 사용한다. 위 문장을 형태소 분석기의 입력으로 사용하면 '영상학'이나 '대표'가 단어로 뽑히고, 해당 단어에 '전공'과 '직책'이라는 태그를 부여할 수 있다. 하지만, 형태소에 태그를 부여하는 방법은 고유명사나 새로운 단어가 많은 회사 이름, 성명 등은 인식되지 않기 때문에 부정확한 프로필 정보를 생성할 가능성이 높다. 실시예에 따른 프로필 생성서버는 형태소 분석기를 사용하지 않고 한 글자마다 태그를 부여하여 프로필 정보를 생성하기 때문에, 외래어, 새로운 단어나 고유명사가 많은 회사명칭이나 이름 등 중요한 프로필 정보를 정확하게 인식할 수 있도록 한다. When extracting valid information such as profile information by semantic analysis of conventional Hangul text, a word resulting from the use of a morpheme analyzer is generally used as a semantic unit. If the above sentence is used as the input of a morpheme analyzer,'image science' or'representative' can be selected as a word, and tags such as'major' and'position' can be assigned to the word. However, the method of tagging the morpheme is likely to generate inaccurate profile information because a proper noun, a company name with many new words, and a name are not recognized. Since the profile generation server according to the embodiment generates tag information by tagging every letter without using a morpheme analyzer, it is possible to accurately recognize important profile information such as foreign words, company names or names with many new words or proper nouns. To make.
이하에서는 프로필 정보 생성 방법에 대해서 차례로 설명한다. 실시예에 따른 프로필 정보 생성 방법의 작용(기능)은 프로필 정보 생성 서버의 기능과 본질적으로 같은 것이므로 도 1 내지 도 4와 중복되는 설명은 생략하도록 한다.Hereinafter, a method of generating profile information will be sequentially described. Since the operation (function) of the profile information generation method according to the embodiment is essentially the same as that of the profile information generation server, a description overlapping with FIGS. 1 to 4 will be omitted.
도 5는 실시예에 따른 프로필 정보 자동생성을 위한 데이터 처리 흐름을 나타낸 도면이다.5 is a diagram illustrating a data processing flow for automatically generating profile information according to an embodiment.
S510 단계에서 수집모듈은 프로필 자동생성 서버에서 뉴스사이트, 블로그를 포함하는 웹 공간에서 기사, 칼럼, 인터뷰를 포함하는 문서를 주기적으로 수집한다.In step S510, the collection module periodically collects articles including articles, columns, and interviews from a web space including news sites and blogs on the profile auto-generation server.
S530 단계에서는 데이터베이스에 수집된 문서와 상기 문서의 출처 및 웹 공간 정보를 저장하고, 문서에서 프로필 정보를 생성하기 위한 키워드 및 비즈니스 정보와 키워드가 포함되는 정보 카테고리를 나타내는 태그를 포함하는 프로필 생성정보를 저장한다.In step S530, the document is collected in a database, and the source and web space information of the document are stored, and profile generation information including a keyword for generating profile information from the document and a tag indicating a category of information including a business information and keywords is generated. To save.
S550 단계에서 추출모듈은 프로필 정보를 추출하고자 하는 문서에 포함된 문장들을 분석하여, 문장들에서 키워드를 추출하고, 키워드를 구성하는 글자에 프로필 카테고리 정보를 태깅(tagging)하여 프로필 예비정보를 생성한다.In step S550, the extraction module analyzes sentences included in the document to extract the profile information, extracts keywords from the sentences, and generates profile preliminary information by tagging profile category information in letters constituting the keyword. .
S570 단계에서 생성모듈은 추출된 프로필 예비정보를 수집하여 키워드는 프로필 정보 카테고리에 따라 분류하고, 연속으로 태깅된 글자를 병합하여 프로필 단어를 생성하고, 키워드와 프로필 단어를 수집하여 프로필 정보를 생성한다.In step S570, the generation module collects the extracted profile preliminary information, classifies the keywords according to the profile information category, generates the profile words by merging consecutively tagged letters, and collects keywords and profile words to generate profile information. .
S590 단계에서는 키워드와 프로필 단어를 카테고리에 따라 디스플레이 프로필 정보를 디스플레이 한다. In step S590, display profile information is displayed according to the category of keywords and profile words.
도 6은 실시예에 따른 프로필 예비정보 생성을 위한 데이터 처리과정을 나타낸 도면이다. 6 is a diagram illustrating a data processing process for generating profile preliminary information according to an embodiment.
S551 단계에서는 문장에 포함된 단어의 의미분석 및 단어의 문장 내 위치 정보를 파악하여 단어간 의미관계와 상관관계를 추론하고, 프로필 예비정보를 추출하기 위한 머신러닝을 수행한다.In step S551, semantic analysis of the words included in the sentence and location information in the sentence of the word are grasped to infer the semantic relationship and correlation between words, and machine learning is performed to extract profile preliminary information.
S553 단계에서는 머신러닝 결과에 따라 입력된 문서에서 키워드를 추출한다.In step S553, keywords are extracted from the input document according to the result of the machine learning.
S555 단계에서는 추출된 키워드에 포함된 글자 각각에 키워드의 카테고리 또는 메타데이터를 나타내는 태그를 부여하는 프로필 정보를 나타낼 프로필 예비정보를 생성한다. In step S555, profile preliminary information is generated to indicate profile information that assigns a tag indicating a category or metadata of the keyword to each letter included in the extracted keyword.
도 7은 실시예에 따른 프로필 정보 생성 과정을 설명하기 위한 도면이다. 7 is a view for explaining a process of generating profile information according to an embodiment.
도 7을 참조하면, 서버에 “이제 10년을 넘긴 프로 게임판의 게임캐스터 전용준 씨는 국내는 물론 세계 게임캐스터 분야를 개척하고 있는 인물이다.” (20)의 문장을 입력하면, 서버는 띄어쓰기에 따라 문장을 구성하는 단어와, 단어를 구성하는 글자를 분리한다. 이후, 각 단어의 의미 분석을 통해 프로필 정보를 나타낼 수 있는 글자에 태그를 부여한다. 도 7에 도시된 바와 같이, '게임캐스터'라는 키워드를 구성하는 '게' 글자에는 직책 태그가 부여되고, '전용준'라는 키워드를 구성하는 '전'라는 글자에는 성 태그가 부여된다. 각 글자에 태그를 부여하여 프로필 예비정보를 생성하면, 연속된 동일한 태그 정보가 부여된 글자들을 병합하여 키워드를 생성하고, 키워드에 태깅된 태그를 키워드 카테고리 정보로 구분하여 도 7의 b와 같은 프로필 정보를 생성할 수 있다.Referring to FIG. 7, the server says, “Jun Jeon Joon of the game board of a professional game board that has been over 10 years now is a person pioneering the field of domestic and global game casters.” When the sentence of (20) is entered, the server separates the words constituting the sentence and the letters constituting the word according to the spacing. Subsequently, through the semantic analysis of each word, a tag is added to a letter that can indicate profile information. As shown in FIG. 7, the title tag is assigned to the letter'crab' constituting the keyword'gamecaster', and the gender tag is assigned to the letter'before' constituting the keyword'dedicated'. When profile preliminary information is generated by tagging each letter, a keyword is generated by merging the letters with the same tag information consecutively, and the tag tagged to the keyword is divided into keyword category information, and the profile shown in FIG. Information can be generated.
실시예에 따른 프로필 정보 생성 서버 및 방법은 다양한 온라인 컨텐츠에서 인물, 기업, 제품에 관한 중요한 유효정보인 프로필 정보를 자동으로 정확하게 추출할 수 있도록 한다. The profile information generation server and method according to the embodiment enable automatic and accurate extraction of profile information, which is important effective information about people, companies, and products from various online contents.
머신러닝을 통해 추출된 프로필 데이터가 누적될수록 프로필 데이터 추출 정확도 및 속도를 향상 시킬 수 있도록 한다.As the profile data extracted through machine learning accumulates, the accuracy and speed of profile data extraction can be improved.
실시예에 따른 프로필 정보 생성 서버 및 방법은 프로필 정보의 신뢰도 연산, 동명이인의 프로필 데이터 분리 및 지속적인 프로필 정보의 업데이트를 자동으로 수행함으로써, 부정확한 프로필 정보의 생성 및 정보 확산을 막을 수 있도록 한다. The profile information generation server and method according to an embodiment automatically prevents the generation of incorrect profile information and the spread of information by automatically calculating the reliability of the profile information, separating profile data of the same person, and continuously updating the profile information. .
개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.The disclosed content is only an example, and can be variously modified by a person having ordinary skill in the art without departing from the gist of the claims claimed in the claims. It is not limited to the examples.