KR102596815B1 - Method for recognizing named entity on pre-owned goods postings - Google Patents

Method for recognizing named entity on pre-owned goods postings Download PDF

Info

Publication number
KR102596815B1
KR102596815B1 KR1020230035963A KR20230035963A KR102596815B1 KR 102596815 B1 KR102596815 B1 KR 102596815B1 KR 1020230035963 A KR1020230035963 A KR 1020230035963A KR 20230035963 A KR20230035963 A KR 20230035963A KR 102596815 B1 KR102596815 B1 KR 102596815B1
Authority
KR
South Korea
Prior art keywords
model
tag
entity
used product
entity name
Prior art date
Application number
KR1020230035963A
Other languages
Korean (ko)
Inventor
조아라
Original Assignee
주식회사 중고나라
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 중고나라 filed Critical 주식회사 중고나라
Priority to KR1020230035963A priority Critical patent/KR102596815B1/en
Application granted granted Critical
Publication of KR102596815B1 publication Critical patent/KR102596815B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 일 목적은, 중고 상품 게시글로부터 정확하고 정교하게 개체명 인식을 수행할 수 있는 방법을 제공하는 것에 있다.
본 개시의 일 실시예에 따르면, 중고 상품 게시글의 개체명 인식 모델을 구축하는 방법으로서, 상기 중고 상품 게시글과 관련된 데이터를 수집하는 단계와, 상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 단계와, 상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 단계를 포함하는 중고 상품 게시글의 개체명 인식 모델 구축 방법이 제공된다.
One purpose of the present disclosure is to provide a method for accurately and precisely recognizing entity names from used product postings.
According to an embodiment of the present disclosure, a method of building an entity name recognition model for used product postings includes collecting data related to the used product postings, and generating a learning data set based on the collected data. A method of building an entity name recognition model for used product postings is provided, including the step of designing and training an entity name recognition model using the learning data set.

Description

중고 상품 게시글의 개체명 인식 방법{METHOD FOR RECOGNIZING NAMED ENTITY ON PRE-OWNED GOODS POSTINGS}{METHOD FOR RECOGNIZING NAMED ENTITY ON PRE-OWNED GOODS POSTINGS}

본 개시는 중고 상품 게시글의 개체명 인식 방법에 관한 것으로, 더 구체적으로는 중고 상품 거래와 관련하여 사용자가 등록한 게시글에서 개체명 인식을 수행하기 위해 데이터 세트를 구축하고 이를 활용하여 인공지능 모델을 학습시키는 방법 등에 관한 것이다. This disclosure relates to a method for recognizing entity names in used product postings. More specifically, constructing a data set to perform entity name recognition in posts registered by users in relation to used product transactions and using this to learn an artificial intelligence model. It's about how to do it, etc.

자연어 처리(Natural Language Processing, NLP)는 인공지능의 한 분야로서 딥러닝 모델을 활용하여 텍스트 데이터를 처리하고 해석하는 것이다. 대표적인 NLP의 유형으로는 자연어 인식 및 자연어 생성이 있으며, 여기서 개체명 인식은 자연어 인식에 속하는 것으로 볼 수 있다. Natural Language Processing (NLP) is a field of artificial intelligence that uses deep learning models to process and interpret text data. Representative types of NLP include natural language recognition and natural language generation, where entity name recognition can be seen as belonging to natural language recognition.

개체명 인식(Named Entity Recognition)이란 미리 정의해 둔 사람(person), 기관명(organization), 장소(location), 시간(time), 단위(unit) 등에 해당하는 고유 명사를 인식하고 분류하는 것이다. 다시 말해, 개체명 인식은 말 그대로 이름을 가진 개체(Named Entity)를 인식(Recognition)하는 것을 의미하며, 비정형 텍스트 데이터로 이루어진 문서로부터 불필요한 단어를 제외하고 주요 단어를 추출하여 해당 단어가 어떤 유형에 해당하는지를 분류하는 정보 추출 기술의 한 분야이다. 이를 통해 정제 및 추출된 단어는 다양하게 활용할 수 있는데, 일례로 전문 검색을 하지 않고도 특정 키워드를 가진 문서를 탐색할 수 있게 된다.Named Entity Recognition is the recognition and classification of proper nouns corresponding to predefined persons, organizations, locations, times, and units. In other words, entity name recognition literally means recognizing a named entity. It extracts key words from a document consisting of unstructured text data by excluding unnecessary words, and identifies what type the word belongs to. It is a field of information extraction technology that classifies whether something is applicable. Through this, the refined and extracted words can be used in a variety of ways. For example, it is possible to search for documents with specific keywords without performing a full-text search.

현재 주요 자연어 처리 모델로는 GPT, BERT, ELECTRA 등의 pre-trained 모델이 공개되어 있다. 이 모델들은 범용적 활용을 목적으로 개발되어 다국어 입력을 지원하며 감정 분석, 문장 요약, 번역 등의 태스크를 수행할 수 있다. 또한 국내에도 한국어 데이터로 학습한 KoBERT, KoGPT 등의 모델이 공개되어 있다.Currently, major natural language processing models include pre-trained models such as GPT, BERT, and ELECTRA. These models were developed for general-purpose use, support multilingual input, and can perform tasks such as sentiment analysis, sentence summarization, and translation. In addition, models such as KoBERT and KoGPT, which were learned using Korean data, are also available in Korea.

이러한 범용 모델은 모델이 언어를 얼마나 잘 이해하여 다양한 태스크를 보편적으로 잘 수행하는지가 중요한 평가 요소이기 때문에, 대부분 많은 파라미터를 요구하여 모델의 사이즈가 크다. 따라서 이를 실서비스 환경에서 활용하는 데에는 많은 자원을 필요로 한다. 또한 해당 서비스를 위한 단일 태스크에서의 높은 성능을 기대하기 어렵다.Since an important evaluation factor for these general-purpose models is how well the model understands the language and performs various tasks well, most models require many parameters and the model size is large. Therefore, utilizing it in a real service environment requires a lot of resources. Additionally, it is difficult to expect high performance in a single task for the service.

예를 들어 종래의 사전 학습(pre-trained)된 모델 중 하나로 개체명 인식 모델을 파인튜닝(fine-tuning) 했을 때, 중고 상품 게시글에서 추출되지 않는 키워드가 종종 발생한다. 가령 모바일/태블릿 카테고리에서 "n세대", "n기가", "n인치" 등의 정보가 잘 추출되지 않는다. 이를테면 "아이패드 프로 4세대 애플펜슬 2세대 키보드 포함"이라는 중고 상품 게시글에서 "아이패드 프로 4세대, 애플펜슬 2세대"라는 키워드가 추출되는 것을 목표로 하지만, 종래의 개체명 인식 기법에 따르면 "아이패드 프로, 애플펜슬"이 추출될 뿐이다. 또한 "부산 아이폰SE2 화이트 64기가 공기계 판매해요"와 같은 중고 상품 게시글에서는 "64기가"가 누락되는 경우가 있으며 "아이패드 11인치"라는 중고 상품 게시글에서는 "11인치"가 누락되는 경우가 발생한다. 요약하자면, n세대, n기가, n인치 등의 정보가 잘 추출되지 않았고, 추출되는 경우에도 용량/사이즈 등과 같은 태그가 존재하지 않아 다른 태그에 할당되는 문제가 발생했다. For example, when fine-tuning an entity name recognition model with one of the conventional pre-trained models, keywords that are not extracted from used product posts often occur. For example, in the mobile/tablet category, information such as “n generation”, “n gigabit”, and “n inch” is not extracted well. For example, the goal is to extract keywords such as "iPad Pro 4th generation, Apple Pencil 2nd generation" from a used product posting titled "iPad Pro 4th generation, Apple Pencil 2nd generation keyboard included", but according to the conventional entity name recognition technique, " Only “iPad Pro and Apple Pencil” are extracted. In addition, "64GB" is sometimes omitted in used product postings such as "Busan iPhone SE2 White 64GB Air System for sale" and "11 inch" is sometimes missing in used product postings such as "iPad 11 inch". . In summary, information such as n generation, n gigabit, n inch, etc. was not extracted well, and even when extracted, tags such as capacity/size did not exist, causing a problem of being assigned to other tags.

또한 모바일/태블릿 카테고리에서 "강화필름", "케이스", "북커버" 같은 악세사리 명칭이 추출되지 않는 경우도 발생하며, 국내 주요 대기업의 제품이 아닌 경우 상품의 모델명 중 일부가 누락되기도 한다. 예컨대 사전 학습(pre-trained)된 토크나이저를 사용할 시 상품의 모델명 중 일부가 누락되는 문제가 발생했다.Additionally, in the mobile/tablet category, there are cases where accessory names such as "tempered film", "case", and "book cover" are not extracted, and if the product is not a product of a major domestic company, some of the product's model name may be missing. For example, when using a pre-trained tokenizer, a problem occurred where some of the product model names were omitted.

이에 본 서비스의 목적에 맞는 태그를 정의하고 학습 데이터 세트를 구축하여 신규 모델을 학습시킬 필요성이 있었다.Accordingly, there was a need to define tags that fit the purpose of this service, build a learning data set, and learn a new model.

이에, 본 개시의 일 목적은, 중고 상품 게시글로부터 정확하고 정교하게 개체명 인식을 수행할 수 있는 방법을 제공하는 것에 있다. Accordingly, one purpose of the present disclosure is to provide a method for accurately and precisely recognizing entity names from used product postings.

일반적으로 인공지능 모델은 학습에 사용한 데이터 세트가 얼마나 정확하고 정교하게 구성되었는지에 따라 그 성능에 큰 영향을 미친다. 다국어를 지원하며 범용적인 활용 목적으로 개발된 모델은 한국어의 특성을 정확하게 반영하는 것에 한계가 있으며, 모델의 크기 또한 방대하여 실제 운영 환경에서 적용하기에는 무리가 있다. 또한 한국어 기반 오픈소스 모델은 주로 위키, 뉴스 등을 학습 데이터 세트로 사용하여 오탈자와 줄임말이 많은 중고 시장에서 자주 사용되는 게시글의 특성과 차이가 있다.In general, the performance of artificial intelligence models is greatly affected by how accurately and elaborately the data set used for learning is constructed. Models that support multiple languages and were developed for general-purpose use have limitations in accurately reflecting the characteristics of the Korean language, and the size of the model is also enormous, making it difficult to apply in an actual operating environment. In addition, the Korean-based open source model mainly uses wikis and news as a learning data set, which differs from the characteristics of posts frequently used in the second-hand market with many typos and abbreviations.

즉, 기존에 공개된 모델을 활용하여 중고 상품 게시글의 개체명을 인식하는 데에는 도메인 및 단어의 특성이 다르다는 문제로 인해 성능에 한계가 존재했으며, 이에 따라 중고 상품 게시글의 특성을 반영한 새로운 학습 데이터 세트를 제작하고 신규 모델을 학습할 필요가 있었다. 하지만 개체명 인식을 위한 데이터 세트를 사람이 제작하는 것은 많은 공수를 필요로 한다. 그리하여 중고 상품 게시글의 학습 데이터 세트를 제작하기 위한 방법을 제시하고 이를 바탕으로 새로운 모델을 학습하여 개체명 인식 성능을 개선하고자 한다.In other words, there were performance limitations in recognizing the entity names of used product postings using previously published models due to the problem of different domain and word characteristics. Accordingly, a new learning data set that reflects the characteristics of used product postings was created. It was necessary to create and learn a new model. However, creating a data set for entity name recognition requires a lot of man-hours. Therefore, we propose a method to create a learning data set of used product postings and learn a new model based on this to improve entity name recognition performance.

또한 중고 상품 게시글의 개체명 인식 모델을 위한 데이터 세트 제작 방법은 중고 상품을 등록하는 사용자 입력 기반 게시글의 특성 분석을 통해 중요한 정보에 해당하는 단어 출현 패턴을 파악하여 대량의 학습 데이터 세트를 제작하는 방법 및 규칙을 도출하고, 이를 활용하여 신규 인공지능 모델을 구성하고 학습함으로써 데이터 정제에 소모되는 금전적, 시간적 비용을 줄여 주는 것이 본 개시의 일 목적이다.In addition, the method of creating a data set for an entity name recognition model for used product postings is to identify word appearance patterns corresponding to important information through analyzing the characteristics of user input-based postings that register used products and create a large learning data set. The purpose of this disclosure is to reduce the financial and time costs consumed in data purification by deriving and using the rules and using them to construct and learn a new artificial intelligence model.

다만, 본 개시가 해결하고자 하는 과제는 이상에서 언급한 바로 제한되지 않으며, 언급되지는 않았으나 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있는 목적을 포함할 수 있다.However, the problems to be solved by this disclosure are not limited to those mentioned above, and include purposes that are not mentioned but can be clearly understood by those skilled in the art from the description below. can do.

본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델을 구축하는 방법은, 상기 중고 상품 게시글과 관련된 데이터를 수집하는 단계와, 상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 단계와, 상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 단계를 포함할 수 있다.A method of building an entity name recognition model for used product postings according to an embodiment of the present disclosure includes collecting data related to the used product postings and generating a learning data set based on the collected data. , It may include designing and training an entity name recognition model using the learning data set.

본 개시의 일 실시예에 따르면 상기 데이터를 수집하는 단계는, 상기 중고 상품 게시글에 포함된 상품에 기초하여 복수의 군집 중 어느 하나의 군집에 상기 중고 상품 게시글을 할당하는 단계와, 상기 어느 하나의 군집에 기초하여 상기 중고 상품 게시글을 분석하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, the step of collecting the data includes assigning the used product posting to any one of a plurality of clusters based on the product included in the used product posting, and It may include analyzing the used product postings based on clusters.

본 개시의 일 실시예에 따르면 상기 학습 데이터 세트를 생성하는 단계는, 적어도 브랜드명 태그와 모델명 태그를 포함하는 복수의 태그를 사용하여 상기 데이터를 태깅하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, generating the learning data set may include tagging the data using a plurality of tags including at least a brand name tag and a model name tag.

본 개시의 일 실시예에 따르면 상기 학습 데이터 세트를 생성하는 단계는, 상기 브랜드명 태그와 상기 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, generating the learning data set may include converting at least one tag between the brand name tag and the model name tag into the model name tag.

본 개시의 일 실시예에 따르면 상기 학습 데이터 세트를 생성하는 단계는, 상기 브랜드명 태그가 태깅되지 않고 둘 이상의 모델명 태그가 태깅될 경우, 상기 둘 이상의 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, the step of generating the learning data set includes, when the brand name tag is not tagged and two or more model name tags are tagged, at least one tag between the two or more model name tags is changed to the model name. It may include the step of converting to tags.

본 개시의 일 실시예에 따르면 상기 개체명 인식 모델을 설계하고 학습시키는 단계는, 상기 학습 데이터 세트에 대해 서브워드 토큰화 및 띄어쓰기 단위로의 변환을 수행하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, designing and training the entity name recognition model may include performing subword tokenization and conversion into space units on the learning data set.

본 개시의 일 실시예에 따르면 상기 개체명 인식 모델을 설계하고 학습시키는 단계는, 상기 개체명 인식 모델의 마지막 층에 CRF 레이어를 배치하는 단계를 포함할 수 있다.According to an embodiment of the present disclosure, designing and training the entity recognition model may include arranging a CRF layer in the last layer of the entity recognition model.

본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법은 상기 중고 상품 게시글을 입력으로 수신하는 단계와, 제1항에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에 의해 생성된 개체명 인식 모델에 기초하여 상기 입력에 대해 개체명 인식을 수행하는 단계와, 상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 단계를 포함할 수 있다.The entity name recognition method of used product postings according to an embodiment of the present disclosure includes the steps of receiving the used product posting as input, and the entity name generated by the entity name recognition model building method of used product postings according to paragraph 1. It may include performing entity name recognition on the input based on a recognition model, and storing a prediction result obtained by performing entity name recognition.

본 개시의 일 실시예에 따르면, 중고 상품 게시글의 개체명 인식을 위한 장치로서, 상기 장치는 명령어를 포함하는 메모리 및 프로세서를 포함하고, 상기 명령어는 상기 프로세서에 의해 실행되어 복수의 모듈을 구현하며, 상기 복수의 모듈은, 상기 중고 상품 게시글과 관련된 데이터를 수집하는 모듈과, 상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 모듈과, 상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 모듈과, 상기 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행하고, 상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 모듈을 포함하는 중고 상품 게시글의 개체명 인식을 위한 장치가 제공된다.According to an embodiment of the present disclosure, there is a device for recognizing entity names in used product postings, wherein the device includes a memory and a processor including instructions, and the instructions are executed by the processor to implement a plurality of modules. , the plurality of modules include a module for collecting data related to the used product posting, a module for generating a learning data set based on the collected data, and designing an entity name recognition model using the learning data set, For entity name recognition of used product postings, including a module for learning, a module for performing entity name recognition on input based on the entity name recognition model, and a module for storing prediction results obtained by performing entity name recognition. A device is provided.

본 개시의 일 실시예에 따르면, 명령어를 저장하는 컴퓨터 판독가능한 기록매체로서, 상기 명령어는 프로세서에 의해서 실행될 때, 상기 프로세서로 하여금 중고 상품 게시글과 관련된 데이터를 수집하는 동작과, 상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 동작과, 상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 동작과, 상기 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행하고, 상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 동작을 포함하는 동작들을 수행하게 하는 컴퓨터 판독가능한 기록매체가 제공된다.According to one embodiment of the present disclosure, there is a computer-readable recording medium storing instructions, wherein the instructions, when executed by a processor, cause the processor to collect data related to used product postings, and to the collected data. An operation of generating a learning data set based on the learning data set, designing and training an entity name recognition model using the learning data set, performing entity name recognition on an input based on the entity name recognition model, and performing entity name recognition on an input based on the entity name recognition model. A computer-readable recording medium is provided that allows performing operations including performing name recognition and storing a prediction result obtained.

본 개시의 실시예들은 중고 상품 게시글의 개체명을 인식하고 정제하여 저장함으로써 데이터 사용의 편의성과 활용도를 높일 수 있다. 정제되지 않은 비정형 텍스트 데이터는 해당 문서가 무엇을 의미하는지, 전체 문서에 어떤 키워드들이 얼마나 존재하는지 등을 파악하는 것이 어렵다. 이와 같이 개체명 인식을 통해 데이터를 정제하여 저장하면 다양한 목적으로 분석 및 활용할 수 있는 메타 데이터를 확보할 수 있다. Embodiments of the present disclosure can increase the convenience and usability of data use by recognizing, refining, and storing the entity names of used product postings. With unrefined, unstructured text data, it is difficult to determine what the document means and how many keywords exist in the entire document. In this way, by refining and storing data through entity name recognition, metadata that can be analyzed and utilized for various purposes can be secured.

또한 본 개시의 실시예들은 한국어로 이루어진 사용자 입력 기반 중고 상품 게시글의 개체명 인식 모델을 보다 엄밀하고 정확하게 구현할 수 있다. 예컨대 지금까지 공개된 오픈소스 모델은 범용적인 자연어 처리 모델로, 오탈자와 줄임말이 많거나 특정한 도메인에서의 자연어 처리의 성능에는 한계가 있으며 한국어는 더욱 그러하다. 따라서 본 개시의 실시예에 따르면 한국어로 이루어진 사용자 입력 기반 중고 상품 게시글의 개체명 인식 모델을 신규로 구축함으로써 중고 상품 게시글에서 보다 정확한 개체명을 인식하고 추출하는 데 핵심 기능으로 활용될 수 있다. Additionally, embodiments of the present disclosure can more strictly and accurately implement an entity name recognition model for used product postings based on user input in Korean. For example, the open source models released so far are general-purpose natural language processing models, but they contain many typos and abbreviations or have limitations in natural language processing performance in specific domains, especially in Korean. Therefore, according to the embodiment of the present disclosure, by building a new entity name recognition model for used product postings based on user input in Korean, it can be used as a core function to recognize and extract more accurate entity names from used product postings.

또한 본 개시의 실시예들에 따르면 종래기술 대비 파라미터 수를 적게 사용하는 신규 모델의 아키텍처를 구성함으로써 서빙 모델의 크기를 줄일 수 있고, 이를 통해 실서비스 환경에서 적은 비용으로 운영이 가능하도록 할 수 있다.In addition, according to the embodiments of the present disclosure, the size of the serving model can be reduced by configuring a new model architecture that uses fewer parameters compared to the prior art, thereby enabling operation at low cost in a real service environment. .

다만, 본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the effects that can be obtained from the present disclosure are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below. You will be able to.

본 명세서에 첨부되는 다음의 도면들은 본 개시의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 개시의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 개시는 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치를 나타내는 도면이다.
도 2는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법과 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법을 나타내는 순서도이다.
도 3은 본 개시의 다른 일 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에서 태깅을 수행하는 프로세스를 나타내는 순서도이다.
도 5는 본 개시의 다른 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에서 태깅을 수행하는 프로세스를 나타내는 순서도이다.
도 6은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에 따라 태깅을 수행한 결과를 나타내는 예시 테이블이다.
도 7은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에 따라 학습 데이터 세트의 게시글을 단어로 토큰화하고 딥러닝 모델의 입력으로 사용할 수 있는 형식으로 변환한 결과를 나타내는 예시 테이블이다.
도 8은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법에 따라 개체명을 인식한 결과를 나타내는 예시 테이블이다.
도 9는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법에 따라 개체명을 인식하는 예시적인 동작을 나타내는 예시 개념도이다.
The following drawings attached to this specification illustrate preferred embodiments of the present disclosure, and serve to further understand the technical idea of the present disclosure along with the detailed description of the invention, so the present disclosure is limited only to the matters described in such drawings. It should not be interpreted as such.
1 is a diagram illustrating a device for recognizing entity names in used product postings according to an embodiment of the present disclosure.
Figure 2 is a flowchart showing a method for building an entity name recognition model for used product postings according to an embodiment of the present disclosure and a method for entity name recognition for used product postings according to an embodiment of the present disclosure.
Figure 3 is a diagram showing a device for recognizing entity names in used product postings according to another embodiment of the present disclosure.
Figure 4 is a flow chart showing a process for performing tagging in the method of building an entity name recognition model for used product postings according to an embodiment of the present disclosure.
Figure 5 is a flowchart showing a process for performing tagging in a method of building an entity name recognition model for used product postings according to another embodiment of the present disclosure.
Figure 6 is an example table showing the results of tagging according to the method of building an entity name recognition model for used product postings according to an embodiment of the present disclosure.
Figure 7 shows the results of tokenizing posts in the learning data set into words and converting them into a format that can be used as input to a deep learning model according to the method of building an entity name recognition model for used product posts according to an embodiment of the present disclosure. This is an example table.
Figure 8 is an example table showing the results of recognizing entity names according to the entity name recognition method of used product postings according to an embodiment of the present disclosure.
Figure 9 is an example conceptual diagram showing an exemplary operation of recognizing an entity name according to an entity name recognition method of a used product posting according to an embodiment of the present disclosure.

이하 첨부된 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 본 개시을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 예에 한정되지 않는다. 또한, 본 개시의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. Hereinafter, with reference to the attached drawings, an embodiment by which a person skilled in the art can easily carry out the present disclosure will be described in detail. However, the present disclosure may be implemented in many different forms and is not limited to the examples described herein. Additionally, in explaining in detail the operating principles of the preferred embodiments of the present disclosure, if it is determined that detailed descriptions of related known functions or configurations may unnecessarily obscure the gist of the present disclosure, the detailed descriptions will be omitted.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In addition, the same reference numerals are used for parts that perform similar functions and actions throughout the drawings. Throughout the specification, when a specific part is said to be connected to another part, this includes not only cases where it is directly connected, but also cases where it is indirectly connected through another element in between. In addition, including a specific component does not mean excluding other components unless specifically stated to the contrary, but rather means that other components may be further included.

나아가, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.Furthermore, when it is said that a part "includes" a certain element throughout the specification, this does not mean excluding other elements, but may further include other elements, unless specifically stated to the contrary.

"제1", "제2" 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 해당 용어들에 의해 한정되어서는 안 된다. 즉, 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as “first” and “second” may be used to describe various components, but these components should not be limited by these terms. That is, terms are used only for the purpose of distinguishing one component from another. For example, a first component may be referred to as a second component, and similarly, the second component may be referred to as a first component without departing from the scope of the present disclosure. The term “and/or” includes any of a plurality of related stated items or a combination of a plurality of related stated items.

또한, 본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.In addition, the terms used in the present disclosure have selected general terms that are currently widely used as much as possible while considering the functions in the present disclosure, but this may vary depending on the intention or precedent of a person working in the art, the emergence of new technology, etc. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the relevant invention. Therefore, the terms used in this disclosure should be defined based on the meaning of the term and the overall content of this disclosure, rather than simply the name of the term.

본 개시의 상세한 설명에 있어서, "상품", "중고 상품", "제품" 또는 "중고 제품" 등의 용어는 본 개시에 있어서의 전자 상거래 플랫폼을 통한 거래에서 취급되는 모든 제품을 포함하는 용어로서, 일반적으로 소유자가 사용한 적이 있는 물건 뿐만 아니라, 소유자가 개봉하지 않은 미개봉 신제품, 약간 포장이나 제품에 흠결이 있는 신품급 신제품 등의 품목을 모두 포괄한다. In the detailed description of this disclosure, terms such as “product”, “used product”, “product” or “used product” are terms that include all products handled in transactions through the e-commerce platform in this disclosure. , Generally, it includes not only items that have been used by the owner, but also items such as unopened new products that have not been opened by the owner, and brand-new new products with slight packaging or product defects.

이하에서는 도면을 참조하여 실시예들을 상세히 설명한다.Hereinafter, embodiments will be described in detail with reference to the drawings.

도 1은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치를 나타내는 도면이다. 도 1을 참조하면, 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치(100)는 사용자가 작성한 사용자 입력 기반 상품 게시글로부터 정제된 데이터를 추출하기 위해 게시글의 입력 패턴 및 구조를 분석하고, 인공지능 자연어 처리 모델인 개체명 인식 모델을 학습하기 위한 데이터 세트를 제작하기 위한 장치일 수 있다. 이러한 장치(100)는 인터넷과 같은 네트워크와 연결된 서버 장치로 동작할 수 있으며 프로세서(111)와 메모리(112)를 포함할 수 있다. 1 is a diagram illustrating a device for recognizing entity names in used product postings according to an embodiment of the present disclosure. Referring to FIG. 1, the device 100 for recognizing the entity name of a used product posting according to an embodiment of the present disclosure uses the input pattern and structure of the posting to extract refined data from a product posting based on user input written by a user. It may be a device for analyzing and producing a data set for learning an entity name recognition model, which is an artificial intelligence natural language processing model. This device 100 may operate as a server device connected to a network such as the Internet and may include a processor 111 and memory 112.

메모리(112)는 데이터 수집 모듈(120), 데이터 세트 생성 모듈(130), 개체명 인식 모델 설계 및 학습 모듈(140), 개체명 인식 수행 및 예측 결과 저장 모듈(150)을 구현하기 위한 컴퓨터 실행가능한 명령어들이 로딩될 수 있다. 이들 모듈은 반드시 모두 한꺼번에 로딩되어 있을 필요는 없으며, 구현 환경 및 실행 시점에 따라 메모리(112)에 일부의 모듈만 로딩될 수 있다. 메모리(112)는 하나의 단일 메모리로 한정되지 않으며 둘 이상의 물리적 메모리(112)를 포함할 수 있다. 또한 도 1의 실시예에서는 메모리(112)와 구별되는 데이터 저장소(160)가 메모리(112) 외부에 별도로 마련되어 있으나 데이터 저장소(160)가 메모리(112) 내에 복수의 모듈들(120, 130, 140, 150)과 함께 포함될 수 있음은 설계상의 선택사항이며 본 개시의 범위를 제한하지 않는다. The memory 112 runs a computer to implement the data collection module 120, the data set creation module 130, the entity name recognition model design and learning module 140, and the entity name recognition performance and prediction result storage module 150. Possible instructions may be loaded. These modules do not necessarily need to be loaded all at once, and only some modules may be loaded into the memory 112 depending on the implementation environment and execution time. Memory 112 is not limited to one single memory and may include two or more physical memories 112. In addition, in the embodiment of FIG. 1, the data storage 160, which is distinct from the memory 112, is provided separately outside the memory 112, but the data storage 160 is stored in a plurality of modules 120, 130, and 140 within the memory 112. , 150) is a design option and does not limit the scope of the present disclosure.

프로세서(111)는 범용 프로세서, FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor)및/또는 등등 일 수 있다. The processor 111 may be a general-purpose processor, a field programmable gate array (FPGA), an application specific integrated circuit (ASIC), a digital signal processor (DSP), and/or the like.

프로세서(111)에 의해 명령어들이 실행되는 경우, 프로세서(111)는 데이터 수집 모듈(120), 데이터 세트 생성 모듈(130), 개체명 인식 모델 설계 및 학습 모듈(140), 개체명 인식 수행 및 예측 결과 저장 모듈(150)을 구현할 수 있다. 또는 이러한 모듈(120, 130, 140, 150)들 중 전부 또는 일부는 별도의 하드웨어적 구성으로서 구현될 수도 있으며, 구체적인 설계 사항에 대해 제한하지는 않는다. When instructions are executed by the processor 111, the processor 111 includes the data collection module 120, the data set creation module 130, the entity name recognition model design and learning module 140, and the entity name recognition performance and prediction. The result storage module 150 can be implemented. Alternatively, all or part of these modules 120, 130, 140, and 150 may be implemented as separate hardware components, and there is no limitation on specific design details.

데이터 수집 모듈(120)은 중고 상품 게시글과 관련된 데이터를 수집하는 모듈일 수 있다. 데이터 수집 모듈(120)은 데이터 수집 및 분석을 위해 사용되는 블록일 수 있으며, 이러한 관점에서 DLAB(Data Load & Analysis Block)이라는 명칭으로 지칭될 수 있다. The data collection module 120 may be a module that collects data related to used product postings. The data collection module 120 may be a block used for data collection and analysis, and from this perspective, may be referred to as a Data Load & Analysis Block (DLAB).

데이터 세트 생성 모듈(130)은 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 모듈일 수 있다. 데이터 세트 생성 모듈(130)은 학습용 데이터 세트를 제작하기 위해 사용되는 블록일 수 있으며, 이러한 관점에서 CDB(Create Dataset Block)라는 명칭으로 지칭될 수 있다. The data set creation module 130 may be a module that generates a learning data set based on collected data. The data set creation module 130 may be a block used to create a learning data set, and from this perspective, may be referred to as CDB (Create Dataset Block).

개체명 인식 모델 설계 및 학습 모듈(140)은 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 모듈일 수 있다. 개체명 인식 모델 설계 및 학습 모듈(140)은 개체명 인식 모델을 설계하고 학습을 위해 사용되는 블록일 수 있으며, 이러한 관점에서 DMTB(Design Model & Train Block)라는 명칭으로 지칭될 수 있다. The entity name recognition model design and learning module 140 may be a module that designs and trains an entity recognition model using a training data set. The entity name recognition model design and learning module 140 may be a block used to design and learn an entity recognition model, and from this perspective, may be referred to as DMTB (Design Model & Train Block).

개체명 인식 수행 및 예측 결과 저장 모듈(150)은 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행하고, 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 모듈일 수 있다. 개체명 인식 수행 및 예측 결과 저장 모듈(150)은 모델 예측 및 데이터 저장 기능을 수행하기 위한 블록일 수 있으며, 이러한 측면에서 MPSB(Model Predict & Storage Block)라는 명칭으로 지칭될 수 있다. The entity name recognition and prediction result storage module 150 may be a module that performs entity name recognition on an input based on an entity name recognition model and stores the prediction result obtained by performing entity name recognition. The entity name recognition and prediction result storage module 150 may be a block for performing model prediction and data storage functions, and in this respect, may be referred to as MPSB (Model Predict & Storage Block).

예측 결과의 저장 동작은 데이터 저장소(160)에 대해 수행될 수 있다. 즉 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행한 후 그 결과를 저장하는 동작은 개체명 인식 수행 및 예측 결과 저장 모듈(150)에 의해 실행되어 데이터 저장소(160)에 그 결과물이 저장될 수 있다. 다만, 이는 예시적인 실시예로서 데이터 저장소(160) 이외의 다른 저장 공간에 예측 결과가 저장될 수 있음은 당해 기술분야의 통상의 지식을 가진 자가 설계변경할 수 있는 사항이며, 본 개시의 범위를 제한하는 사항이 아니다. A storage operation of the prediction result may be performed on the data storage 160. That is, the operation of performing entity name recognition on the input based on the entity name recognition model and then storing the result is executed by the entity name recognition performance and prediction result storage module 150 and the result is stored in the data storage 160. It can be saved. However, this is an exemplary embodiment, and the fact that the prediction result can be stored in a storage space other than the data storage 160 is a design change that can be made by a person skilled in the art, and limits the scope of the present disclosure. It is not something to do.

도 2는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법과 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법을 나타내는 순서도이다. 도면부호 A에 해당하는 단계(S110) 내지 단계(S130)는 중고 상품 게시글의 개체명 인식 모델을 구축하는 방법에 대응하고, 도면부호 B에 해당하는 단계(S210) 내지 단계(S230)는 구축된 개체명 인식 모델에 기초하여 중고 상품 게시글의 개체명을 인식하는 방법에 대응한다. Figure 2 is a flowchart showing a method for building an entity name recognition model for used product postings according to an embodiment of the present disclosure and a method for entity name recognition for used product postings according to an embodiment of the present disclosure. Steps (S110) to (S130) corresponding to reference numeral A correspond to a method of building an entity name recognition model of used product postings, and steps (S210) to (S230) corresponding to reference numeral B correspond to the constructed method. Based on the entity name recognition model, it corresponds to a method of recognizing entity names in used product postings.

단계(S110)는 데이터 수집 모듈(120)에 의해 수행되는 단계로서, 중고 상품 게시글과 관련된 데이터를 수집할 수 있다. 또한 단계(S110)에서는 도 3 등을 참조하여 후술되는 바와 같이, 소정의 절차에 따라 수집된 데이터가 분석되는 프로세스가 추가될 수도 있다.Step S110 is a step performed by the data collection module 120 and can collect data related to used product postings. Additionally, in step S110, a process in which collected data is analyzed according to a predetermined procedure may be added, as will be described later with reference to FIG. 3 and the like.

단계(S120)는 데이터 세트 생성 모듈(130)에 의해 수행되는 단계로서, 수집된 데이터에 기초하여 학습 데이터 세트를 생성할 수 있다. Step S120 is a step performed by the data set creation module 130, and can generate a learning data set based on the collected data.

단계(S130)는 개체명 인식 모델 설계 및 학습 모듈(140)에 의해 수행되는 단계로서, 단계(S120)에서 생성된 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시킬 수 있다. Step S130 is a step performed by the entity name recognition model design and learning module 140, and a name entity recognition model can be designed and trained using the training data set generated in step S120.

단계(S210) 내지 단계(S230)는 개체명 인식 수행 및 예측 결과 저장 모듈(150)에 의해 수행되는 단계들이다. 단계(S210)에서는 중고 상품 게시글을 입력으로 수신한다. 단계(S220)에서는 단계(S110) 내지 단계(S130)에 따라 생성된 개체명 인식 모델에 기초하여 단계(S210)에서 수신된 입력에 대해 개체명 인식을 수행한다. 단계(S230)에서는 개체명 인식을 수행하여 획득된 예측 결과를 저장한다. 앞서 설명된 바와 같이 예측 결과의 저장 동작은 데이터 저장소(160)에서 수행될 수 있다.Steps S210 to S230 are steps performed by the entity name recognition and prediction result storage module 150. In step S210, a used product posting is received as input. In step S220, entity name recognition is performed on the input received in step S210 based on the entity name recognition model generated in steps S110 to S130. In step S230, the prediction result obtained by performing entity name recognition is stored. As described above, the storage operation of the prediction result may be performed in the data storage 160.

도 3은 본 개시의 다른 일 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치를 나타내는 도면이다. 도 3의 실시예는 도 1의 실시예를 일부 변형하고 더욱 구체화한 실시예이다. 도 3의 예시적인 실시예에 따른 중고 상품 게시글의 개체명 인식을 위한 장치(100)는 데이터 수집 모듈(120), 데이터 세트 생성 모듈(130), 개체명 인식 모델 설계 및 학습 모듈(140), 개체명 인식 수행 및 예측 결과 저장 모듈(150), 데이터 저장소(160)를 포함한다. Figure 3 is a diagram showing a device for recognizing entity names in used product postings according to another embodiment of the present disclosure. The embodiment shown in FIG. 3 is a slightly modified and more detailed embodiment of the embodiment shown in FIG. 1 . The device 100 for recognizing entity names in used product postings according to the exemplary embodiment of FIG. 3 includes a data collection module 120, a data set creation module 130, an entity name recognition model design and learning module 140, It includes a module 150 for performing entity name recognition and storing prediction results, and a data storage 160.

도 3에 도시된 바와 같이 데이터 수집 모듈(120)은 카테고리 분석(Category Analysis) 및 문장 구조 분석(Sentence Structure Analysis) 기능을 수행하는 서브모듈을 포함할 수 있다. 데이터 수집 뿐만 아니라 데이터 분석이 수행될 수 있다는 점에서 데이터 수집 모듈(120)은 데이터 수집 및 분석 모듈이라고 지칭될 수도 있다. 본 개시의 일 실시예에 따른 데이터 수집 및 분석 동작은 학습 데이터 세트 제작을 위한 준비 동작으로서 중고 상품 게시글을 수집하여 학습에 활용할 대상을 정의하고 분석 대상을 그룹화하는 기능을 수행할 수 있다. As shown in FIG. 3, the data collection module 120 may include submodules that perform category analysis and sentence structure analysis functions. The data collection module 120 may also be referred to as a data collection and analysis module in that not only data collection but also data analysis can be performed. The data collection and analysis operation according to an embodiment of the present disclosure is a preparatory operation for producing a learning data set, and may perform the function of collecting used product postings, defining objects to be used for learning, and grouping analysis objects.

데이터 수집 모듈(120)은 데이터 저장소(160)에서 중고 상품 게시글과 관련된 데이터를 선별하고 기본적인 전처리 과정을 거쳐 적재하는 동작을 수행할 수 있다. 이때, 데이터 저장소(160)에 존재하지 않는 데이터는 외부 사이트를 참조해 크롤링하여 수집될 수 있으나 이는 예시적인 것으로서 본 개시의 범위를 제한하는 것은 아니다. The data collection module 120 may select data related to used product postings from the data storage 160 and load them through a basic preprocessing process. At this time, data that does not exist in the data storage 160 may be collected by crawling with reference to an external site, but this is an example and does not limit the scope of the present disclosure.

데이터 수집 모듈(120)이 데이터 수집뿐만 아니라 데이터 분석을 수행할 경우, 분석 기능은 기본적인 전처리 과정을 거쳐 적재된 여러 상품 데이터에 대해 클러스터링 분석 기법을 적용하여 여러 상품을 복수개의 군집 중 어느 하나에 할당하고 해당 군집별 게시글의 특성 및 게시글 작성 패턴 분석을 수행할 수 있다. When the data collection module 120 performs data analysis as well as data collection, the analysis function applies a clustering analysis technique to multiple product data loaded through a basic preprocessing process to assign multiple products to one of a plurality of clusters. You can then analyze the characteristics of posts and post writing patterns for each cluster.

복수개의 군집 중 어느 하나의 군집에 할당하는 동작은 도 3에 도시된 카테고리 분석 모듈에서 수행될 수 있다. 복수개의 군집은 3개의 군집일 수 있으나 이는 예시적인 것으로서 본 개시의 범위를 한정하는 것이 아니다. The operation of assigning to one of a plurality of clusters can be performed in the category analysis module shown in FIG. 3. The plurality of clusters may be three clusters, but this is an example and does not limit the scope of the present disclosure.

또한, 해당 군집별 게시글의 특성 및 게시글 작성 패턴 분석은 도 3에 도시된 문장 구조 분석 모듈에서 수행될 수 있다. 문장 구조 분석 프로세스에서는 불필요한 단어를 분석하여 불용어 사전을 구축할 수도 있으며, 이는 여러 군집에 공통되는 그룹에서 불필요한 단어로 채택될 수도 있고, 일부 군집에만 해당하는 불필요한 단어로 채택될 수도 있다. Additionally, analysis of the characteristics of posts for each cluster and post writing patterns can be performed in the sentence structure analysis module shown in FIG. 3. In the sentence structure analysis process, a dictionary of stop words can be constructed by analyzing unnecessary words, which may be adopted as unnecessary words from groups common to several clusters, or may be adopted as unnecessary words corresponding to only some clusters.

도 3에 도시된 바와 같이 데이터 세트 생성 모듈(130)은 사전처리(Preprocessing) 및 재구성(Reconstructing) 기능을 수행하는 서브모듈을 포함할 수 있다. 본 개시의 일 실시예에 따른 학습 데이터 세트 생성 동작은 데이터 수집 모듈(120)로부터 도출된 결과를 바탕으로 학습 데이터 세트를 제작할 수 있다. 이에 대한 자세한 설명은 이하 도 4를 참조하여 기술된다. As shown in FIG. 3, the data set creation module 130 may include submodules that perform preprocessing and reconstruction functions. The learning data set creation operation according to an embodiment of the present disclosure may create a learning data set based on results derived from the data collection module 120. A detailed description of this is described below with reference to FIG. 4.

도 4는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에서 태깅을 수행하는 프로세스를 나타내는 순서도이다. 개체명 인식(NER)은 문장을 토큰 단위로 나누고, 이 토큰들을 각각 태깅(tagging)해서 개체명인지 아닌지를 분간하게 된다. 한편 단일 토큰이 아닌 여러 개의 토큰의 결합으로 하나의 개체명이 완성되는 경우도 있는데, 본 개시의 실시예들에 따르면 이처럼 복수개의 토큰으로 결합되어 하나의 개체명이 되는 경우를 더욱 정확하게 식별할 수 있는 이점이 있다. Figure 4 is a flow chart showing a process for performing tagging in the method of building an entity name recognition model for used product postings according to an embodiment of the present disclosure. Entity name recognition (NER) divides a sentence into tokens and tags each token to determine whether it is an entity name or not. On the other hand, there are cases where an entity name is completed by combining multiple tokens rather than a single token. According to embodiments of the present disclosure, there is an advantage of more accurately identifying cases where multiple tokens are combined to form a single entity name. There is.

도 4에 도시된 바와 같이 본 개시의 일 실시예에서 태깅을 수행하는 프로세스는 단계(S310)에서 브랜드명(ORG)을 먼저 태깅하고, 단계(S320)에서 색상(CL), 용량(QT), 세대(GN)를 태깅하고, 그 후 단계(S330)에서 모델명(AF)을 추론하여 태깅할 수 있다. 모델명(AF)을 추론하여 태깅한 이후에는 불용어 사전을 활용하여 태그를 다시 한번 점검할 수도 있다.As shown in FIG. 4, the process of performing tagging in an embodiment of the present disclosure first tags the brand name (ORG) in step S310, and then tags color (CL), capacity (QT), and The generation (GN) can be tagged, and then the model name (AF) can be inferred and tagged in step S330. After inferring the model name (AF) and tagging, you can check the tag again using a stop word dictionary.

도 5는 본 개시의 다른 일 실시예에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에서 태깅을 수행하는 프로세스를 나타내는 순서도이다. 도 5의 실시예는 도 4의 예시적인 실시예를 더욱 구체화한 하나의 예시로서, 이하에서는 도 4와 도 5를 함께 참조하여 본 개시의 실시예들을 설명한다.Figure 5 is a flowchart showing a process for performing tagging in a method of building an entity name recognition model for used product postings according to another embodiment of the present disclosure. The embodiment of FIG. 5 is an example that further embodies the exemplary embodiment of FIG. 4 , and hereinafter, embodiments of the present disclosure will be described with reference to FIGS. 4 and 5 together.

단계(S310)에서 브랜드명(ORG)을 태깅하는 과정은 다음과 같은 특징을 활용하여 수행될 수 있다. 중고 상품 게시글의 특성상 첫번째에 등장하는 단어는 대부분 브랜드명인 경우가 많다. 이러한 경향에 따라 추가적인 브랜드명을 추출하여 브랜드 리스트를 확보할 수 있으며 이를 활용하여 브랜드명을 태깅할 수 있다. The process of tagging the brand name (ORG) in step S310 can be performed using the following characteristics. Due to the nature of used product postings, the first word that appears is often the brand name. According to this trend, additional brand names can be extracted to secure a brand list, and brand names can be tagged using this.

단계(S320)에서 색상(CL), 용량(QT), 세대(GN)를 태깅하는 과정은 다음과 같은 특징을 활용하여 수행될 수 있다. 표현하는 단어의 개수가 적거나 정규 표현식으로 탐지할 수 있는 색상(CL), 용량(QT), 세대(GN)를 나타내는 단어 리스트를 확보하여 태깅한다. 이 과정에서 군집에 따라 태깅에 참조하는 단어 리스트를 별도로 관리함으로써 태깅 정확도를 높일 수 있다. The process of tagging color (CL), capacity (QT), and generation (GN) in step S320 can be performed using the following features. Tagging is done by securing a list of words representing color (CL), capacity (QT), and generation (GN) that can be detected with a small number of words or regular expressions. In this process, tagging accuracy can be improved by separately managing the list of words referenced for tagging according to the cluster.

단계(S330)에서 모델명(AF)을 태깅하는 과정은 다음과 같은 특징을 활용하여 수행될 수 있다. 먼저, 군집별 게시글 작성 패턴 규칙에 따라 모델명(AF)이 될 수 있는 후보 단어들을 도 6에 도시된 테이블과 같이 추론한다. 그 후 불용어를 제외하고 태깅을 수행한다. The process of tagging the model name (AF) in step S330 can be performed using the following features. First, candidate words that can be model names (AF) are inferred according to the post writing pattern rules for each cluster, as shown in the table shown in FIG. 6. Afterwards, tagging is performed excluding stop words.

단계(S330)에서는 추가적인 추론 규칙으로 두 가지 추론 규칙을 적용할 수 있다. 첫째는 브랜드명(ORG)과 모델명(AF) 사이에 있는 태그는 모델명(AF)으로 대체하여 적용하는 것이고, 둘째는 모델명(AF)만 존재할 시 모델명(AF)들 사이에 있는 태그는 모델명(AF)으로 대체하는 것이다. 이러한 두 가지 추론 규칙은 둘 다 적용할 수도 있고 둘 중 어느 하나만을 적용할 수도 있다.In step S330, two inference rules can be applied as additional inference rules. First, the tag between the brand name (ORG) and the model name (AF) is applied by replacing it with the model name (AF), and second, when only the model name (AF) exists, the tag between the model names (AF) is applied by replacing the model name (AF). ) is replaced with . Both of these inference rules can be applied, or only one of them can be applied.

예컨대, 도 6에 도시된 바와 같이 단어 토큰이 [몽블랑, 마일스, 데이비스, 만년필, m촉]인 경우 1차 태깅만 수행하면 [ORG, O, O, AF, O]로 태깅이 이루어지나, 이에 대해 첫번째 추론 규칙(즉, 브랜드명(ORG)과 모델명(AF) 사이에 있는 태그는 모델명(AF)으로 대체하는 규칙)을 적용할 경우 [ORG, AF, AF, AF, O]으로 태깅이 이루어짐을 알 수 있다.For example, as shown in Figure 6, if the word token is [Montblanc, Miles, Davis, fountain pen, m nib], tagging is done as [ORG, O, O, AF, O] if only the first tagging is performed. When applying the first inference rule (i.e., the rule that replaces tags between the brand name (ORG) and the model name (AF) with the model name (AF)), tagging is done as [ORG, AF, AF, AF, O]. can be seen.

또한, 도 6에 도시된 바와 같이 단어 토큰이 [여자, 소가죽, 샌들]인 경우 1차 태깅만 수행하면 [AF, O, AF]로 태깅이 이루어지나, 이에 대해 두번째 추론 규칙(즉, 모델명(AF)만 존재할 시 모델명(AF)들 사이에 있는 태그는 모델명(AF)으로 대체하는 규칙)을 적용할 경우 [AF, AF, AF]로 태깅이 이루어짐을 알 수 있다.In addition, as shown in Figure 6, when the word token is [woman, cowhide, sandal], tagging is done as [AF, O, AF] if only the first tagging is performed, but the second inference rule (i.e. model name) is used for this. If you apply the rule that replaces the tag between model names (AF) with the model name (AF) when only (AF) exists, you can see that tagging is done as [AF, AF, AF].

한편, 데이터 세트 생성 모듈(130)에서 학습 데이터가 생성되면, 이에 기초하여 개체명 인식 모델 설계 및 학습 모듈(140)이 인공지능 모델의 구조를 설계하고 학습 데이터 세트 생성 모듈(130)로부터 생성된 데이터 세트를 활용하여 인공지능 모델을 학습시킨다. Meanwhile, when learning data is generated in the data set creation module 130, the entity name recognition model design and learning module 140 designs the structure of the artificial intelligence model based on this and generates the learning data from the learning data set generation module 130. Train an artificial intelligence model using a data set.

도 3에 도시된 바와 같이 개체명 인식 모델 설계 및 학습 모듈(140)은 모델 구축(Constructing) 및 모델 학습(Training) 기능을 수행하는 서브모듈을 포함할 수 있다. As shown in FIG. 3, the entity name recognition model design and learning module 140 may include submodules that perform model constructing and model training functions.

개체명 인식 모델 설계 및 학습 모듈(140)에 포함된 모델 구축 기능을 수행하는 서브모듈은 일종의 설계 모듈이라고 볼 수 있는데, 이러한 모듈은 전처리 및 후처리를 통해 띄어쓰기 단위의 토크나이징 기법을 사용할 수 있다. 기존에는 미등록 단어 사전 문제를 해소하고 모델의 용량을 줄이기 위해 학습시에 Subword Tokenizer를 활용하였으나, 이 경우 모델 예측 결과에서 단어의 일부가 누락되는 현상이 발생할 수 있다. 예컨대, 도 7에 도시된 예시적인 변환 결과와 같이, Pre-trained Tokenizer를 사용할 경우 "캐논"이라는 브랜드명이 "_캐"와 "논"으로 개체명 태깅이 이루어져서 단어가 누락되는 현상이 발생할 수 있다. 모델 예측 결과에서 단어의 일부가 누락되는 현상을 방지하기 위해, 본 개시의 일 실시예에 따르면 이를 띄어쓰기 단위의 토크나이징 기법으로 변환하여 사용할 수 있다. 도 7에 도시된 바와 같이 띄어쓰기 단위로의 토큰 변환 기법 사용시 "캐논"은 온전히 하나의 태그로 태깅될 수 있다. The submodule that performs the model building function included in the entity name recognition model design and learning module 140 can be viewed as a type of design module, and this module can use tokenizing techniques in space units through pre-processing and post-processing. there is. Previously, Subword Tokenizer was used during training to solve the dictionary problem of unregistered words and reduce model capacity, but in this case, some words may be omitted from the model prediction results. For example, as shown in the exemplary conversion result shown in FIG. 7, when using a pre-trained tokenizer, the brand name "Canon" is tagged as an entity name with "_Cae" and "Non", which may cause words to be omitted. . In order to prevent part of a word from being omitted from the model prediction result, according to an embodiment of the present disclosure, this can be converted to a space-based tokenizing technique and used. As shown in Figure 7, when using the token conversion technique in space units, "Canon" can be completely tagged as one tag.

한편, 본 개시의 일 실시예에 따르면 인공지능 모델의 마지막 층에 CRF 레이어를 배치하여 개체 간의 등장 관계를 학습하도록 유도함으로써 예측 정확도를 향상시킬 수 있다. Meanwhile, according to an embodiment of the present disclosure, prediction accuracy can be improved by placing a CRF layer in the last layer of the artificial intelligence model to induce learning of appearance relationships between entities.

개체명 인식 모델 설계 및 학습 모듈(140)에 포함된 모델 학습 기능을 수행하는 서브모듈은 도 7의 테이블과 같이 학습 데이터 세트의 게시글을 단어로 토큰화하고 수치형으로 바꿔 딥러닝 모델의 입력으로 사용할 수 있는 형식으로 변환하는 기능을 포함할 수 있다. 이러한 과정을 통해 변환된 데이터를 활용하여 모델을 학습할 수 있다.The submodule that performs the model learning function included in the entity name recognition model design and learning module 140 tokenizes the posts in the learning data set into words and converts them into numeric form as the input of the deep learning model, as shown in the table in FIG. 7. May include functions for converting to a usable format. Through this process, you can learn a model using the converted data.

도 3에 도시된 바와 같이 개체명 인식 수행 및 예측 결과 저장 모듈(150)은 추론(Inferencing) 및 데이터 저장(Store Data) 기능을 수행하는 서브모듈을 포함할 수 있다. As shown in FIG. 3, the entity name recognition and prediction result storage module 150 may include submodules that perform inferencing and data storage functions.

인식 수행 및 예측 결과 저장 모듈(150)에 포함된 추론 기능을 수행하는 서브모듈은 전술된 바에 따라 도출된 학습 모델을 기반으로 기존에 등록되었거나, 새롭게 등록된 중고 상품 게시글을 입력으로 받아 개체명 인식을 수행할 수 있다. 이때, 학습 데이터 세트 생성 시에 수행한 것과 동일한 전처리 과정을 거친 후 모델의 입력으로 사용할 수도 있다. The submodule performing the inference function included in the recognition performance and prediction result storage module 150 recognizes the entity name by receiving existing or newly registered used product postings as input based on the learning model derived as described above. can be performed. At this time, it can also be used as input to the model after going through the same preprocessing process as performed when creating the learning data set.

인식 수행 및 예측 결과 저장 모듈(150)에 포함된 데이터 저장 기능을 수행하는 서브모듈은 전술한 추론 기능을 통해 수행된 개체명 인식의 예측 결과를 저장소에 저장할 수 있다. 여기서 저장소는 앞서 설명된 데이터 저장소(160)일 수 있다. A submodule performing a data storage function included in the recognition performance and prediction result storage module 150 may store the prediction result of entity name recognition performed through the above-described inference function in a storage. Here, the storage may be the data storage 160 described above.

도 8은 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법에 따라 개체명을 인식한 결과를 나타내는 예시 테이블로서, 원문에 해당하는 문장을 종래의 방법으로 예측한 결과에 비하여 본 개시의 일 실시예에 따라 예측할 경우 개선된 예측 결과를 제공함을 보여준다.Figure 8 is an example table showing the results of recognizing an entity name according to an entity name recognition method in a used product posting according to an embodiment of the present disclosure, and compared to the result of predicting a sentence corresponding to the original text using a conventional method, It is shown that improved prediction results are provided when prediction is made according to an example of .

예를 들어, "첼로 cr1 로드자전거 팝니다"라는 원문 문장은 기존의 기술에서 "로드자전거 첼로"가 예측 결과로 도출됨에 비해 본 개시의 실시예에 따르면 "첼로 cr1 로드자전거"라는 예측 결과가 도출되어 브랜드 추출이 개선될 수 있다. 또는, "무료배송 언더아머 여성 트레이닝 바지"라는 원문 문장은 "트레이닝 바지"로 예측되는 종래 기술에 비하여 "언더아머 여성 트레이닝 바지"로 예측되는 본 개시의 실시예에 따라 브랜드 추출이 개선됨을 확인할 수 있다.For example, the original sentence "Cello cr1 road bike for sale" is derived as a prediction result of "cello cr1 road bike" in the existing technology, whereas according to the embodiment of the present disclosure, the prediction result is "cello cr1 road bike". Brand extraction can be improved. Alternatively, it can be confirmed that brand extraction is improved according to the embodiment of the present disclosure, where the original sentence "Free shipping Under Armor women's training pants" is predicted as "Under Armor women's training pants" compared to the prior art, where it is predicted as "Training pants". there is.

도 8의 예시 테이블의 3행과 4행에 포함된 "조던1 로얄토 하이 280"와 "버벨 14kg세트 아령 덤벨 세트 운동기구 한국산"라는 원문 문장의 예측 결과를 비교해보면, 본 개시의 실시예에 따라 브랜드 추출이 개선됨은 물론이거니와 사이즈 추출도 개선됨을 확인할 수 있다.Comparing the prediction results of the original sentences "Jordan 1 Royale Toe High 280" and "Bubell 14 kg set dumbbell dumbbell set exercise equipment made in Korea" included in rows 3 and 4 of the example table in Figure 8, in the embodiment of the present disclosure Accordingly, it can be seen that not only brand extraction is improved, but also size extraction is improved.

또한, 도 8의 예시 테이블의 5행에 포함된 "(100)KYJ 골프웨어 방풍 니트집업 (정품)"이라는 원문 문장의 예측 결과를 기준으로 종래기술과 본 개시의 실시예를 비교하자면, 단어 누락 문제가 개선되고 있다는 점도 확인할 수 있다.In addition, when comparing the prior art and the embodiment of the present disclosure based on the prediction result of the original sentence "(100) KYJ Golf Wear Windproof Knit Zip-up (Genuine)" included in row 5 of the example table in FIG. 8, there are missing words. We can also confirm that the problem is improving.

한편, 도 9는 본 개시의 일 실시예에 따른 중고 상품 게시글의 개체명 인식 방법에 따라 개체명을 인식하는 예시적인 동작을 나타내는 예시 개념도로서, 본 개시의 실시예들에 따라 사용자가 등록한 게시글로부터 중고 상품의 상품 정보를 의미하는 개체를 인식하고 브랜드명, 모델명, 용량, 색상 등으로 분류하여 정제된 형태의 데이터로 변환하는 기능을 예시한다. Meanwhile, Figure 9 is an exemplary conceptual diagram showing an exemplary operation of recognizing an entity name according to an entity name recognition method of a used product posting according to an embodiment of the present disclosure, and is a conceptual diagram showing an example operation of recognizing an entity name according to an entity name recognition method of a used product posting according to an embodiment of the present disclosure. This example illustrates the function of recognizing entities representing product information of used products, classifying them by brand name, model name, capacity, color, etc., and converting them into refined data.

이상 설명된 예시적인 방법들의 각 단계들이나 동작들은, 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램의 실행에 따라 하나 이상의 프로세서를 포함하는 컴퓨터에 의해 수행될 수 있음은 자명하다.It is obvious that each step or operation of the exemplary methods described above can be performed by a computer including one or more processors by executing a computer program stored in a computer-readable recording medium.

전술한 기록매체에 저장된 각 명령어(instruction)는, 해당하는 각 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 통해 구현 가능하되, 이러한 컴퓨터 프로그램은 컴퓨터 판독 가능한 기록매체에 저장될 수 있고, 프로세서에 의해 실행 가능하다. 컴퓨터 판독 가능한 기록매체는 비일시적 판독 가능 매체(non-transitory readable medium)일 수 있다. 이 때, 비일시적 판독 가능 매체란 레지스터, 캐시, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 방법을 수행하기 위한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.Each instruction stored in the above-described recording medium can be implemented through a computer program programmed to perform each corresponding step, and such computer program may be stored in a computer-readable recording medium and can be executed by a processor. do. A computer-readable recording medium may be a non-transitory readable medium. At this time, a non-transitory readable medium refers to a medium that stores data semi-permanently and can be read by a device, rather than a medium that stores data for a short period of time, such as registers, caches, and memories. Specifically, programs for performing the various methods described above may be stored and provided in non-transitory readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, etc.

본 문서에 개시된 다양한 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.Methods according to various examples disclosed in this document may be provided and included in a computer program product. The computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or online through an application store (e.g. Play Store ). In the case of online distribution, at least a portion of the computer program product may be at least temporarily stored or created temporarily in a storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server.

이상 설명한 것과 같이, 본 개시의 실시예들에 따르면 중고 상품 게시글의 개체명을 인식하고 정제하여 저장함으로써 데이터 사용의 편의성과 활용도를 높일 수 있다. As described above, according to the embodiments of the present disclosure, the convenience and usability of data use can be increased by recognizing, refining, and storing the entity names of used product postings.

이상과 같이 일 예들이 비록 한정된 일 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 위의 기재로부터 다양한 수정 및 변형이 가능함을 이해할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the examples have been described with limited examples and drawings as described above, those skilled in the art can understand that various modifications and variations can be made from the above description. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent.

따라서, 본 개시의 범위는 설명된 일 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Accordingly, the scope of the present disclosure should not be limited to the example described, but should be determined by the claims and equivalents of the claims as well as the claims described later.

Claims (10)

중고 상품 게시글의 개체명 인식 모델을 구축하는 방법으로서, 상기 방법은 프로세서 및 메모리를 갖는 장치에 의해 수행되고,
상기 중고 상품 게시글과 관련된 데이터를 수집하는 단계와,
상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 단계와,
상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 단계
를 포함하되,
상기 학습 데이터 세트를 생성하는 단계는,
적어도 브랜드명 태그와 모델명 태그를 포함하는 복수의 태그를 사용하여 상기 데이터를 태깅하는 단계를 포함하고,
상기 학습 데이터 세트를 생성하는 단계는,
상기 브랜드명 태그와 상기 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 단계, 및
상기 브랜드명 태그가 태깅되지 않고 둘 이상의 모델명 태그가 태깅될 경우, 상기 둘 이상의 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 단계 중 적어도 하나를 포함하는
중고 상품 게시글의 개체명 인식 모델 구축 방법.
A method of building an entity name recognition model of used product postings, the method being performed by a device having a processor and memory,
A step of collecting data related to the used product posting,
generating a learning data set based on the collected data;
Designing and learning an entity name recognition model using the learning data set
Including,
The step of generating the learning data set is,
Tagging the data using a plurality of tags including at least a brand name tag and a model name tag,
The step of generating the learning data set is,
Converting at least one tag between the brand name tag and the model name tag into the model name tag, and
When the brand name tag is not tagged and two or more model name tags are tagged, comprising at least one of converting at least one tag between the two or more model name tags into the model name tag.
How to build an entity name recognition model for used product postings.
제1항에 있어서,
상기 데이터를 수집하는 단계는,
상기 중고 상품 게시글에 포함된 상품에 기초하여 복수의 군집 중 어느 하나의 군집에 상기 중고 상품 게시글을 할당하는 단계와,
상기 어느 하나의 군집에 기초하여 상기 중고 상품 게시글을 분석하는 단계를 포함하는
중고 상품 게시글의 개체명 인식 모델 구축 방법.
According to paragraph 1,
The step of collecting the data is,
assigning the used product posting to one of a plurality of clusters based on products included in the used product posting;
Comprising the step of analyzing the used product posting based on one of the clusters.
How to build an entity name recognition model for used product postings.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 개체명 인식 모델을 설계하고 학습시키는 단계는,
상기 학습 데이터 세트에 대해 서브워드 토큰화 및 띄어쓰기 단위로의 변환을 수행하는 단계를 포함하는
중고 상품 게시글의 개체명 인식 모델 구축 방법.
According to paragraph 1,
The step of designing and learning the entity name recognition model is,
Comprising the step of performing subword tokenization and conversion into space units on the learning data set.
How to build an entity name recognition model for used product postings.
제1항에 있어서,
상기 개체명 인식 모델을 설계하고 학습시키는 단계는,
상기 개체명 인식 모델의 마지막 층에 CRF 레이어를 배치하는 단계를 포함하는
중고 상품 게시글의 개체명 인식 모델 구축 방법.
According to paragraph 1,
The step of designing and learning the entity name recognition model is,
Comprising the step of placing a CRF layer in the last layer of the entity name recognition model.
How to build an entity name recognition model for used product postings.
중고 상품 게시글의 개체명 인식 방법으로서,
상기 중고 상품 게시글을 입력으로 수신하는 단계와,
제1항에 따른 중고 상품 게시글의 개체명 인식 모델 구축 방법에 의해 생성된 개체명 인식 모델에 기초하여 상기 입력에 대해 개체명 인식을 수행하는 단계와,
상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 단계
를 포함하는 중고 상품 게시글의 개체명 인식 방법.
As a method of recognizing the entity name of a used product posting,
Receiving the used product posting as input;
Performing entity name recognition on the input based on an entity name recognition model generated by the entity name recognition model building method for used product postings according to paragraph 1;
Storing the prediction result obtained by performing the entity name recognition.
Method for recognizing entity names in used product postings containing.
중고 상품 게시글의 개체명 인식을 위한 장치로서, 상기 장치는 명령어를 포함하는 메모리 및 프로세서를 포함하고, 상기 명령어는 상기 프로세서에 의해 실행되어 복수의 모듈을 구현하며, 상기 복수의 모듈은,
상기 중고 상품 게시글과 관련된 데이터를 수집하는 모듈과,
상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 모듈과,
상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 모듈과,
상기 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행하고, 상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 모듈
을 포함하고,
상기 학습 데이터 세트를 생성하는 것은,
적어도 브랜드명 태그와 모델명 태그를 포함하는 복수의 태그를 사용하여 상기 데이터를 태깅하는 것을 포함하고,
상기 학습 데이터 세트를 생성하는 것은,
상기 브랜드명 태그와 상기 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 것, 및
상기 브랜드명 태그가 태깅되지 않고 둘 이상의 모델명 태그가 태깅될 경우, 상기 둘 이상의 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 것 중 적어도 하나를 포함하는
중고 상품 게시글의 개체명 인식을 위한 장치.
A device for recognizing entity names in used product postings, the device comprising a memory and a processor including instructions, the instructions being executed by the processor to implement a plurality of modules, the plurality of modules comprising:
A module that collects data related to the used product postings,
a module that generates a learning data set based on the collected data;
A module for designing and learning an entity name recognition model using the learning data set,
A module that performs entity name recognition on input based on the entity name recognition model and stores prediction results obtained by performing entity name recognition.
Including,
Creating the learning data set is,
and tagging the data using a plurality of tags including at least a brand name tag and a model name tag,
Creating the learning data set is,
Converting at least one tag between the brand name tag and the model name tag into the model name tag, and
When the brand name tag is not tagged and two or more model name tags are tagged, converting at least one tag between the two or more model name tags into the model name tag.
A device for recognizing entity names in used product postings.
명령어를 저장하는 컴퓨터 판독가능한 기록매체로서,
상기 명령어는 프로세서에 의해서 실행될 때, 상기 프로세서로 하여금
중고 상품 게시글과 관련된 데이터를 수집하는 동작과,
상기 수집된 데이터에 기초하여 학습 데이터 세트를 생성하는 동작과,
상기 학습 데이터 세트를 사용하여 개체명 인식 모델을 설계하고 학습시키는 동작과,
상기 개체명 인식 모델에 기초하여 입력에 대해 개체명 인식을 수행하고, 상기 개체명 인식을 수행하여 획득된 예측 결과를 저장하는 동작
을 포함하는 동작들을 수행하게 하고,
상기 학습 데이터 세트를 생성하는 동작은,
적어도 브랜드명 태그와 모델명 태그를 포함하는 복수의 태그를 사용하여 상기 데이터를 태깅하는 동작을 포함하고,
상기 학습 데이터 세트를 생성하는 동작은,
상기 브랜드명 태그와 상기 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 동작, 및
상기 브랜드명 태그가 태깅되지 않고 둘 이상의 모델명 태그가 태깅될 경우, 상기 둘 이상의 모델명 태그 사이에 있는 적어도 하나의 태그를 상기 모델명 태그로 변환하는 동작 중 적어도 하나를 포함하는
컴퓨터 판독가능한 기록매체.
A computer-readable recording medium storing instructions,
When the instruction is executed by a processor, it causes the processor to
An operation to collect data related to used product postings,
An operation of generating a learning data set based on the collected data;
An operation of designing and learning an entity name recognition model using the learning data set,
An operation of performing entity name recognition on an input based on the entity name recognition model and storing a prediction result obtained by performing the entity name recognition.
Perform actions including,
The operation of generating the learning data set is,
An operation of tagging the data using a plurality of tags including at least a brand name tag and a model name tag,
The operation of generating the learning data set is,
An operation of converting at least one tag between the brand name tag and the model name tag into the model name tag, and
When the brand name tag is not tagged and two or more model name tags are tagged, comprising at least one of converting at least one tag between the two or more model name tags into the model name tag.
Computer-readable recording medium.
KR1020230035963A 2023-03-20 2023-03-20 Method for recognizing named entity on pre-owned goods postings KR102596815B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230035963A KR102596815B1 (en) 2023-03-20 2023-03-20 Method for recognizing named entity on pre-owned goods postings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230035963A KR102596815B1 (en) 2023-03-20 2023-03-20 Method for recognizing named entity on pre-owned goods postings

Publications (1)

Publication Number Publication Date
KR102596815B1 true KR102596815B1 (en) 2023-11-02

Family

ID=88747457

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230035963A KR102596815B1 (en) 2023-03-20 2023-03-20 Method for recognizing named entity on pre-owned goods postings

Country Status (1)

Country Link
KR (1) KR102596815B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040032355A (en) * 2002-10-09 2004-04-17 한국전자통신연구원 Apparatus for extracting event sentences in documents and method thereof
JP2013506189A (en) * 2009-09-27 2013-02-21 アリババ・グループ・ホールディング・リミテッド Retrieving information based on general query attributes
KR20220102816A (en) * 2021-01-14 2022-07-21 한국전자통신연구원 Attribute extraction method and apparatus using text data on traditional cultural heritage
JP2022130337A (en) * 2021-02-25 2022-09-06 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング Weakly supervised and explainable learning for mechanism for named entity recognition (ner) based on machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040032355A (en) * 2002-10-09 2004-04-17 한국전자통신연구원 Apparatus for extracting event sentences in documents and method thereof
JP2013506189A (en) * 2009-09-27 2013-02-21 アリババ・グループ・ホールディング・リミテッド Retrieving information based on general query attributes
KR20220102816A (en) * 2021-01-14 2022-07-21 한국전자통신연구원 Attribute extraction method and apparatus using text data on traditional cultural heritage
JP2022130337A (en) * 2021-02-25 2022-09-06 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング Weakly supervised and explainable learning for mechanism for named entity recognition (ner) based on machine learning

Similar Documents

Publication Publication Date Title
Vasiliev Natural language processing with Python and spaCy: A practical introduction
Shwartz et al. Still a pain in the neck: Evaluating text representations on lexical composition
RU2665239C2 (en) Named entities from the text automatic extraction
Agarwal et al. Temporal effects on pre-trained models for language processing tasks
KR20100038378A (en) A method, system and computer program for intelligent text annotation
Kenny Human and machine translation
Aksenov et al. Abstractive text summarization based on language model conditioning and locality modeling
JP7281905B2 (en) Document evaluation device, document evaluation method and program
CN113312480A (en) Scientific and technological thesis level multi-label classification method and device based on graph convolution network
Wang et al. Structural block driven enhanced convolutional neural representation for relation extraction
Bianchi et al. Identifying e‐Commerce in Enterprises by means of Text Mining and Classification Algorithms
Amina et al. SCANCPECLENS: A framework for automatic lexicon generation and sentiment analysis of micro blogging data on China Pakistan economic corridor
Afreen et al. Generating UML class models from SBVR software requirements specifications
Onal et al. Named entity recognition from scratch on social media
Repke et al. Extraction and representation of financial entities from text
Alqahtani et al. Emotion analysis of Arabic tweets: Language models and available resources
Nanni et al. Semi-supervised textual analysis and historical research helping each other: Some thoughts and observations
KR102596815B1 (en) Method for recognizing named entity on pre-owned goods postings
JP2012141679A (en) Training data acquiring device, training data acquiring method, and program thereof
Schwab et al. “The Rodney Dangerfield of Stylistic Devices”: End-to-End Detection and Extraction of Vossian Antonomasia Using Neural Networks
B. Shelke et al. Marathi SentiWordNet: A lexical resource for sentiment analysis of Marathi
Molino et al. Distributed representations for semantic matching in non-factoid question answering.
CN114298048A (en) Named entity identification method and device
Plu et al. Adel: Adaptable entity linking
Pekar et al. Explainable text-based features in predictive models of crowdfunding campaigns

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant