KR20200066119A - Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method - Google Patents

Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method Download PDF

Info

Publication number
KR20200066119A
KR20200066119A KR1020190008303A KR20190008303A KR20200066119A KR 20200066119 A KR20200066119 A KR 20200066119A KR 1020190008303 A KR1020190008303 A KR 1020190008303A KR 20190008303 A KR20190008303 A KR 20190008303A KR 20200066119 A KR20200066119 A KR 20200066119A
Authority
KR
South Korea
Prior art keywords
question
answer
natural language
knowledge
language content
Prior art date
Application number
KR1020190008303A
Other languages
Korean (ko)
Other versions
KR102206781B1 (en
Inventor
안예찬
정창성
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of KR20200066119A publication Critical patent/KR20200066119A/en
Application granted granted Critical
Publication of KR102206781B1 publication Critical patent/KR102206781B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are a method of distinguishing fake news using knowledge-based inference and reliability analysis, and a recording medium and a device for performing the same. The device of distinguishing fake news using knowledge-based inference and reliability analysis comprises: a question input unit which receives a question corresponding to the news to be distinguished; a natural language content input unit which receives natural language content corresponding to a sentence composed of natural language on the Internet; a knowledge-based database constructing unit which analyzes the natural language content to construct a knowledge-based database, and extracts the natural language content related to the question from the knowledge-based database as an answer candidate group for the question; and a knowledge-based inference unit which generates an answer to the question by inputting the question and the answer candidate group into an inference model determined in accordance with types of the question.

Description

지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치{METHOD OF FAKE NEWS EVALUATION BASED ON KNOWLEDGE-BASED INFERENCE, RECORDING MEDIUM AND APPARATUS FOR PERFORMING THE METHOD}METHOD OF FAKE NEWS EVALUATION BASED ON KNOWLEDGE-BASED INFERENCE, RECORDING MEDIUM AND APPARATUS FOR PERFORMING THE METHOD}

본 발명은 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것으로서, 더욱 상세하게는 질문에 해당하는 문장의 사실성을 판단하는 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것이다.The present invention relates to a method for discriminating fake news using knowledge-based reasoning and reliability analysis, and a recording medium and apparatus for performing the same, more specifically, using knowledge-based reasoning and reliability analysis to determine the truthfulness of a sentence corresponding to a question It relates to a fake news discrimination method, a recording medium and a device for performing the fake news.

고속 이동통신망 및 스마트폰이 널리 보급된 모바일 시대가 도래하면서, 각종 사회관계망서비스(SNS)의 사용이 급속도로 증가하고 있다. 특히, 근래에 들어 블로그(blog), 카카오톡(KakaoTalk), 라인(Line), 페이스북(Facebook), 트위터(Twitter), 인스타그램(Instagram) 및 텀블러(Tumblr)와 같은 SNS의 사용이 급증하면서, 각종 SNS를 통한 정보 또는 뉴스의 전달 역시 폭발적으로 증가하고 있다.With the advent of the mobile era in which high-speed mobile communication networks and smartphones are widely spread, the use of various social networking services (SNS) is rapidly increasing. In particular, in recent years, the use of SNS such as blogs, KakaoTalk, Line, Facebook, Twitter, Instagram and Tumblr is rapidly increasing. Meanwhile, the delivery of information or news through various SNS is also explosively increasing.

그러나, 선거와 같은 정치적 행사가 있을 때마다 각종 SNS를 통해 잘못된 정보 또는 뉴스가 퍼지는 경우 또한 적지 않게 발생하는 것이 현실이다. 또한, 더욱 심각한 것은 특정한 목적을 가지고 의도적으로 각종 SNS를 통해 잘못된 정보 또는 뉴스를 전파하는 경우도 빈번히 발생하고 있다는 점인데, 이와 같은 이유로 SNS를 통한 정보 또는 뉴스의 전달이 향후 중요한 사회적 문제가 될 가능성이 높다고 볼 수 있다.However, it is also a reality that whenever a political event such as an election spreads false information or news through various SNSs. In addition, more seriously, it is a frequent occurrence of intentionally disseminating wrong information or news through various SNS for a specific purpose, and for this reason, the delivery of information or news through SNS may become an important social problem in the future. It can be said that this is high.

한편 위와 같이 특정한 목적을 가지고 의도적으로 조작된 뉴스인 가짜뉴스는 대부분 사람에 의해 탐색되고, 그 진위 여부가 판별된다. On the other hand, fake news, which is news intentionally manipulated with a specific purpose as described above, is mostly searched by people, and the authenticity is determined.

예를 들어, 한국등록특허 제10-1869815호에 따르면 SNS 상게 게재된 뉴스에 대해서 SNS 이용자들이 직접 뉴스의 진위 여부를 파악하여 태그를 입력하고, 태그로부터 의심 지수를 산출하는 방법이 개시된다.For example, according to Korean Patent Registration No. 10-1869815, a method is disclosed in which SNS users directly identify the authenticity of the news, input a tag, and calculate a suspicious index from the tag.

이처럼 종래의 가짜뉴스 탐색 방법은 사람이 직접 검증하는 방식으로 많은 시간과 노력을 필요로 한다. 따라서, 사람의 판단을 요구하지 않으며, 가짜뉴스를 실시간으로 선별할 수 있는 새로운 가짜뉴스 탐색 모델이 필요한 실정이다. As described above, the conventional method of searching for fake news requires a lot of time and effort in a way that a person directly verifies. Accordingly, there is a need for a new fake news search model capable of selecting fake news in real time without requiring human judgment.

본 발명은 자연어 콘텐츠를 정제한 후 지식 기반 데이터베이스를 구축하고, 지식 기반 데이터베이스를 통해 질문에 대한 답변을 생성하는 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치를 제공한다.The present invention provides a method for determining a fake news using knowledge-based reasoning and reliability analysis that builds a knowledge-based database after refining natural language content and generates answers to questions through the knowledge-based database, and a recording medium and a device for performing the same. to provide.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기 과제를 해결하기 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치는 판별 대상 뉴스에 해당하는 질문을 입력 받는 질문 입력부, 인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 입력 받는 자연어 콘텐츠 입력부, 상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하고, 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 지식 기반 데이터베이스 구성부 및 상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 지식 기반 추론부를 포함한다.The fake news discrimination device using knowledge-based reasoning and reliability analysis includes a question input unit that receives a question corresponding to a news to be discriminated, a natural language content input unit that receives natural language content corresponding to a sentence composed of natural languages on the Internet, and Construct a knowledge base database by analyzing natural language content, and extract the natural language content related to the question from the knowledge base database as a candidate group for answering the question, and a knowledge base database constructing unit and the question and answer candidate group in the form of the question And a knowledge-based reasoning unit that generates an answer to the question by inputting it to a reasoning model determined according to.

한편, 상기 지식 기반 추론부는, 상기 질문의 형태를 분석하여 상기 질문에 대한 답변 형태를 참/거짓 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정하는 답변 형태 분석부를 포함할 수 있다.Meanwhile, the knowledge-based reasoning unit may include an answer type analysis unit that analyzes the type of the question and sets the answer type to the question as one of true/false answer, causal answer, and confirmation answer.

또한, 상기 지식 기반 추론부는, 상기 질문에 대한 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 상기 질문 및 상기 답변 후보군을 트리화하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 트리구조 분석 모델을 상기 질문의 추론 모델으로 설정하고, 상기 질문에 대한 답변 형태가 인과 답변 또는 확인 답변으로 설정되는 경우, 딥러닝 학습 기반의 추론 모델을 상기 질문의 추론 모델으로 설정하는 추론 엔진 모델 선택부를 더 포함할 수 있다.In addition, the knowledge-based reasoning unit, if the answer form for the question is set to the answer of the true / false answer, the query and the answer candidates are treeed to intention of the natural language content included in the question and the answer candidates When a tree structure analysis model to be compared is set as a reasoning model of the question, and when the answer form for the question is set as a causal answer or a confirmation answer, a reasoning setting a deep learning learning-based reasoning model as the reasoning model of the question The engine model selection unit may be further included.

또한, 상기 지식 기반 데이터베이스 구성부는, 상기 자연어 콘텐츠를 도메인의 스코프, 미디어 종류 및 도메인의 카테고리에 따라 분류하고, 상기 자연어 콘텐츠를 데이터의 크기, 언어 형태 및 데이터의 구조에 따라 분류하며, 상기 자연어 콘텐츠의 문장 구조를 분석하여 벡터 값을 산출하는 입력 데이터 분석부를 포함할 수 있다.In addition, the knowledge base configuration unit classifies the natural language content according to domain scope, media type, and domain category, and classifies the natural language content according to data size, language form, and data structure, and the natural language content. It may include an input data analysis unit for calculating a vector value by analyzing the sentence structure of.

또한, 상기 지식 기반 데이터베이스 구성부는, 상기 자연어 콘텐츠의 분류 결과에 따라 상기 자연어 콘텐츠의 전달 루트를 분석하여 상기 자연어 콘텐츠의 출처 경위를 확인하고, 상기 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 상기 지식 기반 데이터베이스로 저장하는 계층적 출처 분석부를 더 포함할 수 있다.In addition, the knowledge base database construction unit analyzes a route of delivery of the natural language content according to the classification result of the natural language content, checks the origin of the natural language content, and classifies the natural language content hierarchically according to the origin of the content. It may further include a hierarchical source analysis unit that stores the knowledge-based database.

또한, 상기 지식 기반 데이터베이스 구성부는, 상기 질문의 출처를 식별하고, 상기 질문의 출처에 기반하여 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 신뢰성 메트릭 기반 분석부를 더 포함할 수 있다.In addition, the knowledge-based database configuration unit, the reliability metric-based analysis unit for identifying the source of the question and extracting natural language content related to the question from the knowledge-based database as a candidate candidate for answering the question based on the source of the question It may further include.

또한, 상기 지식 기반 추론부는, 상기 추론 모델 중 하나로 상기 질문 및 상기 답변 후보군의 문장 구조를 트리화하고, 상기 질문 및 상기 답변 후보군에 대한 개체명 및 구문론적 분석을 수행하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 방식으로 상기 질문에 대한 답변을 생성하는 트리구조 분석 모델 및 상기 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 상기 질문에 대한 답변을 생성하는 딥러닝 학습 기반 추론 모델을 포함할 수 있다.In addition, the knowledge-based reasoning unit, as one of the inference models, tree the sentence structure of the question and answer candidate groups, and performs the subject and syntactic analysis of the question and answer candidate groups to perform the question and answer candidate groups A tree structure analysis model that generates an answer to the question by comparing the intention of natural language content included in the sentence, and a vector value calculated by analyzing the sentence structure of the answer candidate group are input to a BERT deep learning network to answer the question You can include a deep learning learning-based reasoning model that generates answers.

또한, 상기 지식 기반 추론부에서 생성하는 답변의 신뢰성을 검증하는 답변 검증부를 더 포함할 수 있다.In addition, an answer verification unit for verifying the reliability of the answer generated by the knowledge-based reasoning unit may be further included.

한편, 본 발명의 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법은 판별 대상 뉴스에 해당하는 질문을 입력 받는 단계, 인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 입력 받는 단계, 상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계, 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계 및 상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계를 포함한다.On the other hand, the method for discriminating fake news using knowledge-based reasoning and reliability analysis of the present invention comprises: receiving a question corresponding to the news to be discriminated; inputting natural language content corresponding to a sentence composed of natural language on the Internet; Analyzing and constructing a knowledge-based database, extracting natural language content related to the question from the knowledge-based database into a candidate group for answering the question, and an inference model determining the question and answer candidate group according to the type of the question And typing in to generate an answer to the question.

한편, 상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는, 상기 질문의 형태를 분석하여 상기 질문에 대한 답변 형태를 참/거짓 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정하는 단계를 포함할 수 있다.On the other hand, analyzing the natural language content and constructing a knowledge-based database includes analyzing the type of the question and setting the answer type for the question as one of true/false answer, causal answer, and confirmation answer. can do.

또한, 상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계는, 상기 질문에 대한 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 상기 질문 및 상기 답변 후보군을 트리화하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 트리구조 분석 모델을 상기 질문의 추론 모델으로 설정하는 단계 및 상기 질문에 대한 답변 형태가 인과 답변 또는 확인 답변으로 설정되는 경우, 딥러닝 학습 기반의 추론 모델을 상기 질문의 추론 모델으로 설정하는 단계를 더 포함할 수 있다.In addition, the step of generating an answer to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question, when the answer type of the question is set to an answer of true/false question and answer Setting a tree structure analysis model that compares the intent of the natural language content included in the answer candidate group to the question by treeing the question and answer candidate groups as a reasoning model of the question, and the answer form for the question is causally When the answer or confirmation answer is set, the step of setting the deep learning learning-based reasoning model as the reasoning model of the question may be further included.

또한, 상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는, 상기 자연어 콘텐츠를 도메인의 스코프, 미디어 종류 및 도메인의 카테고리에 따라 분류하는 단계, 상기 자연어 콘텐츠를 데이터의 크기, 언어 형태 및 데이터의 구조에 따라 분류하는 단계 및 상기 자연어 콘텐츠의 문장 구조를 분석하여 벡터 값을 산출하는 단계를 포함할 수 있다.In addition, analyzing the natural language content and constructing a knowledge base database may include classifying the natural language content according to a domain scope, media type, and domain category, and classifying the natural language content into data size, language form, and data. The method may include classifying according to a structure and calculating a vector value by analyzing the sentence structure of the natural language content.

또한, 상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는, 상기 자연어 콘텐츠의 분류 결과에 따라 상기 자연어 콘텐츠의 전달 루트를 분석하여 상기 자연어 콘텐츠의 출처 경위를 확인하는 단계, 상기 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 상기 지식 기반 데이터베이스로 저장하는 단계를 더 포함할 수 있다.In addition, analyzing the natural language content and constructing a knowledge-based database includes: analyzing a delivery route of the natural language content according to a classification result of the natural language content, and determining the origin of the natural language content, and originating the natural language content The method may further include classifying hierarchically according to the circumstances and storing it in the knowledge base database.

또한, 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계는, 상기 질문의 출처를 식별하고, 상기 질문의 출처에 기반하여 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계를 포함할 수 있다.In addition, the step of extracting the natural language content related to the question from the knowledge base database into a candidate group for answering the question, identifying the source of the question, and relating to the question from the knowledge base database based on the source of the question And extracting natural language content as a candidate group for answering the question.

또한, 상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계는, 상기 추론 모델 중 하나로 상기 질문 및 상기 답변 후보군의 문장 구조를 트리화하고, 상기 질문 및 상기 답변 후보군에 대한 개체명 및 구문론적 분석을 수행하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 방식으로 상기 질문에 대한 답변을 생성하는 단계 및 상기 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 상기 질문에 대한 답변을 생성하는 단계를 포함할 수 있다.In addition, the step of generating an answer to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question, tree structure of the question and the answer candidate group as one of the reasoning models And generating an answer to the question in a manner of comparing the intention of the natural language content included in the answer candidate group and the subject by performing an object name and syntactic analysis of the question and answer candidate group and the answer candidate group The method may include generating a response to the question by inputting a vector value calculated by analyzing the sentence structure of the BERT deep learning network.

또한, 상기 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.In addition, the computer-readable recording medium in which a computer program is recorded for performing the method for discriminating fake news using the knowledge-based reasoning and reliability analysis.

본 발명에 따르면 사람이 직접 판별 대상 뉴스를 검증하는 것이 아니라 지식 기반 데이터베이스를 통해 판별 대상 뉴스의 사실성에 대한 답변을 생성하므로 빠르고 정확한 가짜 뉴스 탐색이 가능하다.According to the present invention, it is possible to search for fake news quickly and accurately because a person generates an answer to the fact of the news to be determined through a knowledge base rather than directly verifying the news to be determined.

도 1은 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치의 블록도이다.
도 2는 도 1에 도시된 지식 기반 데이터베이스 구성부의 세부 블록도이다.
도 3은 도 1에 도시된 지식 기반 추론부의 세부 블록도이다.
도 4는 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법의 흐름도이다.
1 is a block diagram of a fake news discrimination apparatus using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention.
FIG. 2 is a detailed block diagram of the knowledge base database configuration unit illustrated in FIG. 1.
3 is a detailed block diagram of the knowledge-based reasoning unit illustrated in FIG. 1.
4 is a flowchart of a fake news discrimination method using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.For a detailed description of the present invention, which will be described later, reference is made to the accompanying drawings that illustrate, by way of example, specific embodiments in which the invention may be practiced. These examples are described in detail enough to enable those skilled in the art to practice the present invention. It should be understood that the various embodiments of the invention are different, but need not be mutually exclusive. For example, the specific shapes, structures, and properties described herein can be implemented in other embodiments without departing from the spirit and scope of the invention in connection with one embodiment. In addition, it should be understood that the location or placement of individual components within each disclosed embodiment can be changed without departing from the spirit and scope of the invention. Therefore, the following detailed description is not intended to be taken in a limiting sense, and the scope of the present invention, if appropriately described, is limited only by the appended claims, along with all ranges equivalent to those claimed. In the drawings, similar reference numerals refer to the same or similar functions throughout several aspects.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치의 블록도이다.1 is a block diagram of a fake news discrimination apparatus using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치(1)는 자연어 콘텐츠 입력부(10), 질문 입력부(15), 지식 기반 데이터베이스 구성부(30), 지식 기반 추론부(50), 답변 검증부(70) 및 출력부(90)를 포함한다.Referring to FIG. 1, the fake news discrimination apparatus 1 using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention includes a natural language content input unit 10, a question input unit 15, and a knowledge-based database construction unit 30 ), a knowledge-based reasoning unit 50, an answer verification unit 70, and an output unit 90.

본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치(1, 이하 장치)는 자연어 콘텐츠를 이용하여 지식 기반 데이터베이스를 구축하고, 지식 기반 데이터베이스를 토대로 질문 문장에 대해 답변을 생성하여 출력할 수 있다. The fake news discrimination apparatus (1, hereinafter devices) using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention constructs a knowledge-based database using natural language content and answers a question sentence based on the knowledge-based database It can be generated and printed.

본 발명의 일 실시예에 따른 장치(1)는 지식 기반 추론 및 신뢰도 분석을 이용하여 질문에 대한 답변 생성을 위한 소프트웨어(어플리케이션)가 설치되어 실행될 수 있으며, 자연어 콘텐츠 입력부(10), 질문 입력부(15), 지식 기반 데이터베이스 구성부(30), 지식 기반 추론부(50), 답변 검증부(70) 및 출력부(90)는 지식 기반 추론 및 신뢰도 분석을 이용하여 질문에 대한 답변 생성을 위한 소프트웨어에 의해 제어될 수 있다.The apparatus 1 according to an embodiment of the present invention may be installed and executed software (application) for generating answers to questions using knowledge-based reasoning and reliability analysis, and the natural language content input unit 10 and the question input unit ( 15), knowledge base configuration unit 30, knowledge base reasoning unit 50, answer verification unit 70 and output unit 90 are software for generating answers to questions using knowledge base reasoning and reliability analysis Can be controlled by.

자연어 콘텐츠 입력부(10), 질문 입력부(15), 지식 기반 데이터베이스 구성부(30), 지식 기반 추론부(50), 답변 검증부(70) 및 출력부(90)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.The configuration of the natural language content input unit 10, the question input unit 15, the knowledge base configuration unit 30, the knowledge base reasoning unit 50, the answer verification unit 70, and the output unit 90 is formed of an integrated module or , May be made of one or more modules. However, on the contrary, each configuration may be made of a separate module.

본 발명의 일 실시예에 따른 장치(1)는 이동성을 갖거나 고정될 수 있다. 본 발명의 일 실시예에 따른 장치(1)는 컴퓨터(computer), 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.The device 1 according to an embodiment of the present invention may have mobility or be fixed. The device 1 according to an embodiment of the present invention may be in the form of a computer, a server, or an engine, and a device, an apparatus, a terminal, and a UE (user) equipment, mobile station (MS), mobile terminal (MT), user terminal (UT), subscriber station (SS), wireless device, personal digital assistant (PDA), wireless modem, mobile device (handheld device).

이하, 도 1에 도시된 본 발명의 일 실시예에 따른 장치(1)의 각 구성에 대해 구체적으로 설명한다.Hereinafter, each configuration of the device 1 according to an embodiment of the present invention shown in FIG. 1 will be described in detail.

자연어 콘텐츠 입력부(10)는 인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 수집할 수 있다. The natural language content input unit 10 may collect natural language content corresponding to a sentence composed of natural language on the Internet.

예를 들면, 자연어 콘텐츠는 인터넷 상의 뉴스, 백과사전, 보고서, 나무위키 등으로부터 수집되는 문장에 해당한다.For example, natural language content corresponds to sentences collected from news, encyclopedias, reports, and tree wikis on the Internet.

질문 입력부(15)는 판별 대상 뉴스에 해당하는 질문 문장을 입력 받을 수 있다.The question input unit 15 may receive a question sentence corresponding to the news to be discriminated.

질문 입력부(15)에서 입력 받는 질문 문장의 형태는 참/거짓 문답의 질문, 인과 질문, 확인 질문, 의견을 구하는 질문 등으로 나뉠 수 있다. The form of the question sentence received by the question input unit 15 may be divided into a true/false question, a causal question, a confirmation question, and a question for asking for opinion.

지식 기반 데이터베이스 구성부(30)는 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하고, 지식 기반 데이터베이스로부터 질문과 관련된 자연어 콘텐츠를 질문에 대한 답변 후보군으로 추출할 수 있다. 이와 관련하여 구체적인 설명은 도 2를 참조하여 후술한다.The knowledge base configuration unit 30 may analyze the natural language content to construct a knowledge base database, and extract natural language content related to a question from the knowledge base database as a candidate for answering the question. A detailed description in this regard will be described later with reference to FIG. 2.

지식 기반 추론부(50)는 질문의 형태에 따라 추론 모델을 선정하고, 질문 및 답변 후보군을 추론 모델에 입력하여 질문에 대한 답변을 생성할 수 있다. 본 실시예에서 추론 모델은 트리구조 분석 모델과 딥러닝 학습 기반의 추론 모델로 나뉠 수 있다. 이와 관련하여 구체적인 설명은 도 3을 참조하여 후술한다.The knowledge-based reasoning unit 50 may generate an answer to the question by selecting an inference model according to the type of the question and inputting a question and answer candidate group into the reasoning model. In this embodiment, the inference model may be divided into a tree structure analysis model and a deep learning learning-based reasoning model. A detailed description in this regard will be described later with reference to FIG. 3.

답변 검증부(70)는 지식 기반 추론부(50)에서 생성하는 답변의 신뢰성을 검증할 수 있다. The answer verification unit 70 may verify the reliability of the answer generated by the knowledge-based reasoning unit 50.

예를 들면, 답변 검증부(70)는 이전에 사실로 판별된 문장, 사실로 알려진 문장 등에 답변이 있는지 역 추적하여 답변을 검증할 수 있다.For example, the answer verification unit 70 may verify the answer by backtracking whether there is an answer, such as a sentence previously determined to be true or a sentence known to be true.

또는, 답변 검증부(70)는 문장을 출처 경위에 따라 분류하여 저장하는 지식 기반 데이터베이스를 이용하여 답변과 다른 출처에 답변과 비슷한 문장이 있는지를 확인하는 방식으로 답변을 검증할 수 있다.Alternatively, the answer verification unit 70 may verify the answer by checking whether there is a sentence similar to the answer in the answer and another source using a knowledge-based database that classifies and stores the sentence according to the source context.

또는, 답변 검증부(70)는 신뢰성 메트릭을 이용하여 답변을 검증할 수 있다. 신뢰성 메트릭은 지식 기반 데이터베이스 구성부(30)에서 답변 후보군을 추출하기 위해 구성하는 것으로, 시간 분류, 출처 식별, 경로 분석, 대명사 출처, 지식 수준 분석 등의 식별 및 분류 작업이 이루어질 수 있다. 답변 검증부(70)는 신뢰성 메트릭의 시간 분류, 출처 식별, 경로 분석, 대명사 출처, 지식 수준 분석 각각에 해당하는 식별 및 분류에 가중치를 더하여, 답변에 해당하는 신뢰도를 수치적으로 계산할 수도 있다.Alternatively, the answer verification unit 70 may verify the answer using the reliability metric. Reliability metrics are configured to extract candidate groups of answers from the knowledge base database construction unit 30, and identification and classification operations such as time classification, source identification, route analysis, pronoun source, and knowledge level analysis can be performed. The answer verification unit 70 may numerically calculate the reliability corresponding to the answer by adding weights to identification and classification corresponding to time classification, source identification, route analysis, pronoun source, and knowledge level analysis of the reliability metric.

출력부(90)는 질문에 대한 답변 문장을 출력할 수 있다.The output unit 90 may output a response sentence to a question.

출력부(90)에서 출력 하는 답변 문장의 형태는 질문의 형태에 따라 참/거짓 문답의 답변, 인과 답변, 확인 답변 등으로 나뉠 수 있다.The form of the answer sentence output from the output unit 90 may be divided into a true/false answer to a question, a causal answer, and a confirmation answer depending on the type of question.

도 2는 도 1에 도시된 지식 기반 데이터베이스 구성부의 세부 블록도이다.FIG. 2 is a detailed block diagram of the knowledge base database configuration unit illustrated in FIG. 1.

도 2를 참조하면, 지식 기반 데이터베이스 구성부(30)는 입력 데이터 분석부(31), 계층적 출처 분석부(33) 및 신뢰성 메트릭 기반 분석부(35)를 포함할 수 있다.Referring to FIG. 2, the knowledge base configuration unit 30 may include an input data analysis unit 31, a hierarchical source analysis unit 33, and a reliability metric based analysis unit 35.

입력 데이터 분석부(31)는 도 1에 도시된 자연어 콘텐츠 입력부(10)에서 수집하는 자연어 콘텐츠를 분석할 수 있다. The input data analysis unit 31 may analyze natural language content collected by the natural language content input unit 10 illustrated in FIG. 1.

입력 데이터 분석부(31)는 자연어 콘텐츠의 도메인, 데이터 타입 및 문장 구조를 분석할 수 있다.The input data analysis unit 31 may analyze the domain, data type, and sentence structure of natural language content.

입력 데이터 분석부(31)는 자연어 콘텐츠의 도메인을 분석하여, 자연어 콘텐츠를 도메인 스코프, 미디어의 종류 및 도메인 카테고리에 따라 분류할 수 있다. The input data analysis unit 31 may analyze the domain of the natural language content and classify the natural language content according to the domain scope, media type, and domain category.

입력 데이터 분석부(31)는 자연어 콘텐츠의 도메인 스코프를 정의하고, 자연어 콘텐츠의 미디어 종류를 분류할 수 있다. 예를 들면, 미디어의 종류는 라디오, 텔레비전, 인터넷 뉴스 등에 해당한다. 그리고, 입력 데이터 분석부(31)는 자연어 콘텐츠의 도메인 카테고리를 분류할 수 있다. 예를 들면, 도메인 카테고리는 스포츠, 음악, 정치, IT, 건강 등으로 나뉠 수 있다.The input data analysis unit 31 may define a domain scope of natural language content and classify media types of natural language content. For example, the type of media corresponds to radio, television, and internet news. In addition, the input data analysis unit 31 may classify domain categories of natural language content. For example, domain categories can be divided into sports, music, politics, IT, and health.

입력 데이터 분석부(31)는 자연어 콘텐츠의 데이터 타입을 분석하여, 자연어 콘텐츠를 데이터의 크기, 언어 형태 및 데이터의 구조에 따라 분류할 수 있다.The input data analysis unit 31 may analyze the data type of the natural language content and classify the natural language content according to the size of the data, the language form, and the structure of the data.

입력 데이터 분석부(31)는 자연어 콘텐츠의 데이터 크기를 크게 세 가지 타입으로 분류할 수 있다. 또한 입력 데이터 분석부(31)는 자연어 콘텐츠의 언어 형태를 분류할 수 있다. 예를 들면, 언어 형태의 종류는 한국어, 영어, 스페인어 등에 해당한다. 또한 입력 데이터 분석부(31)는 자연어 콘텐츠의 데이터의 구조를 분류할 수 있다. 예를 들면, 데이터의 구조는 정형 데이터, 준정형 데이터 및 비정형 데이터로 나뉠 수 있다.The input data analysis unit 31 can classify the data size of the natural language content into three types. In addition, the input data analysis unit 31 may classify language forms of natural language content. For example, the type of language type corresponds to Korean, English, and Spanish. Also, the input data analysis unit 31 may classify the structure of data of natural language content. For example, the structure of data can be divided into structured data, semi-structured data, and unstructured data.

입력 데이터 분석부(31)는 자연어 콘텐츠의 문장 구조를 형태론적, 구문론적, 의미론적으로 분석하여 벡터 값을 산출할 수 있다.The input data analysis unit 31 may analyze the sentence structure of the natural language content morphologically, syntactically, and semantically to calculate a vector value.

입력 데이터 분석부(31)는 자연어 콘텐츠를 최소 의미 단위인 형태소로 나누어 형태론적으로 분석할 수 있다. 입력 데이터 분석부(31)는 자연어 콘텐츠를 문장 단위로 자르고, 각각의 문장마다의 Sen2vec을 이용한 문장 임베딩을 통해 벡터 값으로 나타낼 수 있다. 입력 데이터 분석부(31)는 문장 단위로 자른 자연어 콘텐츠를 Mecab-ko 형태소 분석기를 이용하여 형태소 단위로 나누고, 문맥에서의 단어들 간의 관계를 파악하는 임베딩을 통해 벡터 값으로 나타낼 수 있다. 그리고 입력 데이터 분석부(31)는 형태소의 특징 벡터를 추가할 수 있다. 입력 데이터 분석부(31)는 형태소의 특징으로 형태소의 종류인 형태소의 코드(예를 들면, 인명, 지명, 고유명사, 일반명사, 동사, 기타 등)를 분류하여 각각 가중치를 주고, 형태소의 중요도, 전체 빈도, 문서 내의 빈도, 타이틀 출현, 문서의 카테고리 등을 포함하는 특징 벡터를 추가할 수 있다. 이러한 형태론적 분석을 통해 산출되는 자연어 콘텐츠의 벡터 값은 추후 질문에 대한 답변 후보군 추출에 사용될 수 있을 것이다.The input data analysis unit 31 may analyze morphologically by dividing the natural language content into morphemes that are the minimum semantic unit. The input data analysis unit 31 may cut the natural language content in units of sentences, and represent the vector values through sentence embedding using Sen2vec for each sentence. The input data analysis unit 31 may divide the natural language content cut by sentence units into morphological units using a Mecab-ko morpheme analyzer, and may represent them as vector values through embedding that identifies relationships between words in the context. In addition, the input data analysis unit 31 may add a feature vector of a morpheme. The input data analysis unit 31 classifies morpheme codes (for example, human names, geographical names, proper nouns, common nouns, verbs, etc.), which are morpheme types, and weights each of them, and determines the importance of the morpheme. , A feature vector including the total frequency, frequency in the document, title appearance, document category, and the like can be added. The vector value of the natural language content calculated through the morphological analysis may be used to extract candidates for answering future questions.

입력 데이터 분석부(31)는 자연어 콘텐츠를 문장을 이루는 구성 성분으로 분해하여 구문론적으로 분석할 수 있다. 입력 데이터 분석부(31)는 자연어 콘텐츠를 그 문장을 이루는 구성 성분으로 분해하고, 구성 성분 간의 위치 관계에 따라 문장의 구조를 결정하여 분류할 수 있다.The input data analysis unit 31 may decompose the natural language content into components constituting sentences to perform syntactic analysis. The input data analysis unit 31 may decompose the natural language content into components constituting the sentence and determine and classify the structure of the sentence according to the positional relationship between the components.

입력 데이터 분석부(31)는 자연어 콘텐츠를 작성한 사용자의 의도를 파악하여 의미론적으로 분석할 수 있다. 입력 데이터 분석부(31)는 자연어 콘텐츠의 어휘의 의미와 문맥을 분석하여 자연어 콘텐츠를 해석할 수 있다.The input data analysis unit 31 may analyze the semantically by grasping the intention of the user who created the natural language content. The input data analysis unit 31 may analyze natural language content by analyzing the meaning and context of the vocabulary of the natural language content.

계층적 출처 분석부(33)는 입력 데이터 분석부(31)에서의 자연어 콘텐츠 분석 결과에 따라 자연어 콘텐츠를 서로 연관성 있는 콘텐츠 별로 분류하여 지식 기반 데이터베이스로 저장할 수 있다.The hierarchical source analysis unit 33 may classify the natural language contents into contents that are related to each other according to the result of analyzing the natural language contents in the input data analysis unit 31 and store them in a knowledge-based database.

계층적 출처 분석부(33)는 입력 데이터 분석부(31)에서의 자연어 콘텐츠 분류 결과에 따라 자연어 콘텐츠의 전달 루트를 분석하여 해당 내용의 출처 경위를 확인할 수 있다. 계층적 출처 분석부(33)는 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 지식 기반 데이터베이스로 저장할 수 있다.The hierarchical source analysis unit 33 may analyze the delivery route of the natural language content according to the result of the classification of the natural language content in the input data analysis unit 31 to determine the origin of the content. The hierarchical source analysis unit 33 may classify the natural language content hierarchically according to the source context and store it as a knowledge base database.

계층적 출처 분석부(33)는 자연어 콘텐츠가 서로 다른 출처 경위가 확인되는 경우, 자연어 콘텐츠를 각 출처 경위에 따라 계층적으로 분류하여 저장하되 가중치를 부여할 수 있다.The hierarchical source analysis unit 33 may classify and store the natural language content in a hierarchical manner according to the origin of each source when the natural language content is determined to have different origins.

신뢰성 메트릭 기반 분석부(35)는 지식 기반 데이터베이스에서 질문 입력부(15)에서 입력 받는 질문과 관련된 자연어 콘텐츠를 질문에 대한 답변 후보군으로 추출할 수 있다.The reliability metric-based analysis unit 35 may extract natural language content related to the question input from the question input unit 15 from the knowledge base as a candidate candidate for answering the question.

신뢰성 메트릭 기반 분석부(35)는 지식 기반 데이터베이스로부터 답변 후보군을 추출하기 위해 질문을 식별 및 분류하여 신뢰성 메트릭을 구성할 수 있다.The reliability metric-based analysis unit 35 may construct a reliability metric by identifying and classifying questions in order to extract answer candidate groups from the knowledge-based database.

예를 들면, 신뢰성 메트릭 기반 분석부(35)는 시간 분류자를 포함하여 질문이 발생한 시간을 식별할 수 있다. 신뢰성 메트릭 기반 분석부(35)는 질문이 발생한 시간을 이용하여 지식 기반 데이터베이스에서 답변 후보군을 추출할 수 있다.For example, the reliability metric-based analysis unit 35 may include a time classifier to identify the time when the question occurred. The reliability metric-based analysis unit 35 may extract answer candidate groups from the knowledge-based database using the time when the question occurred.

신뢰성 메트릭 기반 분석부(35)는 출처 식별자를 포함하여 질문의 출처를 식별할 수 있다. 예를 들면, 출처 식별자는 질문에 포함되는 "~에 따르면, ~에 의해"등의 문장으로부터 질문의 출처를 식별할 수 있다. 신뢰성 메트릭 기반 분석부(35)는 질문의 출처를 이용하여 지식 기반 데이터베이스에서 답변 후보군을 추출할 수 있다.The reliability metric-based analysis unit 35 may identify the source of the question by including the source identifier. For example, the source identifier may identify the source of the question from sentences such as "according to ~ by" included in the question. The reliability metric-based analysis unit 35 may extract answer candidate groups from the knowledge-based database using the source of the question.

신뢰성 메트릭 기반 분석부(35)는 경로 분석기를 포함하여 지식 기반 데이터베이스에서 질문의 출처 경위를 찾아 실제 질문에 해당하는 자연어 콘텐츠가 존재하는지를 파악할 수 있다. 이러한 신뢰성 메트릭 기반 분석부(35)의 경로 탐색 결과는 질문이 가짜 뉴스에 해당하는지를 판단하거나, 답변의 신뢰성을 검증하는 데에 사용될 수 있다.The reliability metric-based analysis unit 35 may include a path analyzer to find the source of the question in the knowledge-based database and determine whether natural language content corresponding to the actual question exists. The route search result of the reliability metric-based analysis unit 35 may be used to determine whether the question corresponds to fake news or to verify the reliability of the answer.

신뢰성 메트릭 기반 분석부(35)는 대명사 출처 분석기를 포함하여 질문의 주어에 해당하는 인물, 기관 등을 식별할 수 있다. 대명사 출처 분석기는 주어에 따라 가중치를 부여할 수 있다. 신뢰성 메트릭 기반 분석부(35)는 질문의 주어를 이용하여 지식 기반 데이터베이스에서 답변 후보군을 추출할 수 있다.The reliability metric-based analysis unit 35 may identify a person, an institution, and the like corresponding to the subject of the question, including a pronoun source analyzer. The pronoun source analyzer can assign a weight according to a subject. The reliability metric-based analysis unit 35 may extract answer candidate groups from the knowledge-based database using the subject of the question.

신뢰성 메트릭 기반 분석부(35)는 지식 수준 분석기를 포함하여 대명사 출처 분석기에서 식별한 질문의 주어의 지식 수준을 분석할 수 있다. 신뢰성 메트릭 기반 분석부(35)는 지식 기반 데이터베이스를 이용하여 질문의 주어가 관련 지식에 대해 충분한 판단과 결과를 얻어낼 수 있는 사람인지, 해당 부분의 지식과 관련 없는 사람인지를 비교할 수 있다.The reliability metric based analysis unit 35 may analyze the knowledge level of the subject of the question identified by the pronoun source analyzer, including the knowledge level analyzer. The reliability metric-based analysis unit 35 may compare whether the subject of the question is a person who can obtain sufficient judgment and results about the related knowledge or a person who is not related to the knowledge of the corresponding part using the knowledge-based database.

도 3은 도 1에 도시된 지식 기반 추론부의 세부 블록도이다.3 is a detailed block diagram of the knowledge-based reasoning unit illustrated in FIG. 1.

도 3을 참조하면, 지식 기반 추론부(50)는 답변 형태 분석부(51), 추론 엔진 모델 선택부(53), 데이터 전처리부(55), 트리구조 분석 모델(57) 및 딥러닝 학습 기반 추론 모델(59)을 포함할 수 있다.Referring to FIG. 3, the knowledge-based reasoning unit 50 is based on an answer type analysis unit 51, an inference engine model selection unit 53, a data pre-processing unit 55, a tree structure analysis model 57, and deep learning learning. Inference model 59 may be included.

답변 형태 분석부(51)는 질문 입력부(15)에서 입력 받는 질문 문장의 형태에 따라 답변 형태를 설정할 수 있다.The answer type analysis unit 51 may set an answer type according to the type of the question sentence received from the question input unit 15.

답변 형태 분석부(51)는 질문 문장의 형태를 분석하여 질문에 대한 답변 형태를 참/거진 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정할 수 있다.The answer form analysis unit 51 may analyze the form of the question sentence and set the answer form for the question as one of true/false answer to the question, causal answer, and confirmation answer.

추론 엔진 모델 선택부(53)는 답변 형태에 따라 추론 모델을 설정할 수 있다. 여기서, 추론 모델은 트리구조 분석 모델(57) 또는 딥러닝 학습 기반 추론 모델(59) 중 하나일 수 있다.The inference engine model selection unit 53 may set an inference model according to an answer form. Here, the inference model may be one of the tree structure analysis model 57 or the deep learning learning-based reasoning model 59.

추론 엔진 모델 선택부(53)는 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 추론 모델로 트리구조 분석 모델(57)을 설정할 수 있다.The reasoning engine model selection unit 53 may set the tree structure analysis model 57 as the reasoning model when the answer type is set to the answer of the true/false question and answer.

추론 엔진 모델 선택부(53)는 답변 형태가 인과 답변 또는 확인 답변과 같이 참/거짓 문답의 답변이 아닌 답변으로 설정되는 경우, 추론 모델로 딥러닝 학습 기반의 추론 모델을 설정할 수 있다.The reasoning engine model selection unit 53 may set a deep learning learning-based reasoning model as an inference model when the answer type is set to an answer other than a true/false answer, such as a causal answer or a confirmation answer.

데이터 전처리부(55)는 신뢰성 메트릭 기반 분석부(35)에서 추출하는 질문에 대한 답변 후보군을 추론 모델의 입력 데이터로 사용할 수 있도록 답변 후보군의 형태론적 분석을 진행할 수 있다.The data preprocessing unit 55 may perform a morphological analysis of the answer candidate groups so that the answer candidate groups for questions extracted from the reliability metric-based analysis unit 35 can be used as input data of the inference model.

데이터 전처리부(55)는 답변 후보군에 포함되는 자연어 콘텐츠에 있어서 상술한 입력 데이터 분석부(31)와 같이 형태론적 분석을 재차 진행하여 벡터 값을 산출할 수 있다.The data pre-processing unit 55 may perform morphological analysis again with the input data analysis unit 31 described above in the natural language content included in the answer candidate group to calculate a vector value.

트리구조 분석 모델(57)은 추론 모델 중 하나로 답변 후보군으로부터 답변을 생성할 수 있다. The tree structure analysis model 57 may generate an answer from a candidate group of answers as one of the inference models.

트리구조 분석 모델(57)은 입력 데이터로 질문 문장 및 답변 후보군의 문장을 사용할 수 있다. 트리구조 분석 모델(57)은 질문 문장 및 답변 후보군의 문장 구조를 트리화하고, 질문 및 답변 후보군에 대한 개체명 및 구문론적 분석을 수행하여 질문과 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 방식으로 최종 결과를 추론할 수 있다.The tree structure analysis model 57 may use a question sentence and a sentence of an answer candidate group as input data. The tree structure analysis model 57 compares the intention of natural language content included in the question and answer candidate group by treeifying the sentence structure of the question sentence and answer candidate group and performing the object name and syntactic analysis of the question and answer candidate group The final result can be deduced in this way.

트리구조 분석 모델(57)은 질문 문장 및 답변 후보군의 트리구조에 대한 개체명 분석 방법으로, 문장의 의도를 파악하고 어휘의 의미와 문맥을 분석하여 문장을 해석할 수 있다. 예를 들면, 트리구조 분석 모델(57)은 한국어의 개체명 인식 딥러닝 방식 중 하나인 BiLSTM-CRF를 활용하여 개체명 인식으로 단어 간의 의미를 태깅할 수 있다. 개체명 태깅은 인물(PERSON), 학문분야(STUDY_FIELD), 이론(THEROY), 인공물(ARTIFACTS), 기관(ORGANIZATION), 지역(LOCATION), 문명(CIVILIZATION), 날짜(DATE), 시간(TIME), 수량(QUANTITY), 이벤트(EVENT), 동물(ANIMAL), 식물(PLANT), 물질(MATERIAL), 용어(TERM)의 15개로 나뉠 수 있다. 트리구조 분석 모델(57)은 질문에 태깅된 개체명이 답변 후보군에 포함되는 자연어 콘텐츠에 각각 의미론적으로 알맞게 속해있는지를 확인하는 개체명 분석을 수행할 수 있다.The tree structure analysis model 57 is an object name analysis method for a tree structure of a candidate sentence and an answer candidate group, and can analyze the sentence by grasping the intention of the sentence and analyzing the meaning and context of the vocabulary. For example, the tree structure analysis model 57 may tag the meaning between words with object name recognition by using BiLSTM-CRF, which is one of Korean object name recognition deep learning methods. The tagging of individual names is PERSON, Academic field (STUDY_FIELD), THEORY (THEROY), ARTIFACTS, ORGANIZATION, LOCATION, CIVILIZATION, DATE, TIME, It can be divided into 15 categories: QUANTITY, EVENT, ANIMAL, PLANT, MATERIAL and TERM. The tree structure analysis model 57 may perform object name analysis to check whether the individual names tagged in the question belong semantically appropriately to the natural language content included in the answer candidate group.

트리구조 분석 모델(57)은 질문 문장 및 답변 후보군의 트리구조에 대한 구문론적 분석 방법으로, 질문 및 답변 후보군의 문장 구성 성분 간의 위치 관계를 분석하여 문장의 구조를 해석할 수 있다. 예를 들면, 트리구조 분석 모델(57)은 문장에서의 각 형태소간의 문장 문법을 파악하여 구문 태그와 기능 태그를 통해 문장의 형태소간의 관계를 파악할 수 있다. 구문 태그로는 NP_체언(명사, 대명사, 수사), VP_용언(동사, 형용사, 보조용언), AP_부사구, VNP_긍정 지정사구(명사+이다), DP_관형사구, IP_감탄사구(호칭 및 대답 등의 표현), X_의사 구(pseudo pharse, 조사 단독 어절 또는 기호 등), L_부호(왼쪽 괄호 및 따옴표), R_부호(오른쪽 괄호 및 따옴표) 등으로 나뉠 수 있다. 기능 태그로는 SBJ_주어, OBJ_목적어, MOD_관형어(체언 수식어), AJT_부사어(용언 수식어), CMP_보어, CNJ_접속어(~와) 등으로 나뉠 수 있다. The tree structure analysis model 57 is a syntactic analysis method of the tree structure of the candidate sentence and answer candidate groups, and analyzes the positional relationship between sentence components of the question and answer candidate groups to analyze the sentence structure. For example, the tree structure analysis model 57 may grasp the sentence grammar between each morpheme in the sentence and grasp the relationship between the morphemes of the sentence through syntax tags and function tags. Syntax tags include: NP_Cheon (noun, pronoun, rhetoric), VP_verb (verb, adjective, auxiliary verb), AP_adverb, VNP_affirmative phrase (noun+ is), DP_tubular phrase, IP_exclamation phrase (Expression of title and answer, etc.), X_pseudo phrases (pseudo pharse, single word or symbol of investigation), L_ sign (left parenthesis and quotation marks), R_ sign (right parenthesis and quotation marks), etc. The functional tags can be divided into SBJ_jure, OBJ_destination, MOD_tubular (demonstrative modifier), AJT_adverb (long-term modifier), CMP_bore, CNJ_connected (~wa).

트리구조 분석 모델(57)은 이와 같이 질문 및 답변 후보군의 트리구조에 대한 개체명 및 구문론적 비교 분석을 수행하여 질문의 의도에 해당하는 내용이 답변 후보군에 존재하는지 여부에 따라 참/거짓의 답변을 생성할 수 있을 것이다.The tree structure analysis model 57 performs an object name and syntactic comparison analysis of the tree structure of the question and answer candidate group as described above, thereby answering true/false according to whether the content corresponding to the intention of the question exists in the answer candidate group Will be able to generate

딥러닝 학습 기반 추론 모델(59)은 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 질문에 대한 답변을 생성할 수 있다. 예를 들면, 답변 후보군의 문장 구조를 분석하여 단어 임베딩을 통해 산출되는 벡터 값은 300차원이고, 형태소의 특징 벡터 값은 300차원으로 총 600차원의 벡터일 수 있다. BERT 딥러닝 네트워크는 질문 답변 방법의 오픈소스로 공개되어 있으며, 딥러닝 학습 기반 추론 모델(59)은 BERT 딥러닝 네트워크에 600차원의 벡터를 입력 값으로 하여 결과 값을 획득할 수 있으며, 그 결과 값을 질문에 대한 답변으로 생성할 수 있을 것이다.The deep learning learning-based reasoning model 59 may generate an answer to a question by inputting a vector value calculated by analyzing a sentence structure of a candidate candidate group into a BERT deep learning network. For example, the vector value calculated through word embedding by analyzing the sentence structure of the candidate group of answers is 300-dimensional, and the feature vector value of the morpheme is 300-dimensional and may be a total of 600-dimensional vectors. The BERT deep learning network is open source of question answering methods, and the deep learning learning-based reasoning model 59 can obtain a result value by using a 600-dimensional vector as an input value in the BERT deep learning network. You will be able to generate values as answers to your questions.

이와 같은, 본 발명의 일 실시예에 따른 장치(1)는 자연어 콘텐츠를 정제한 후 지식 기반 데이터베이스를 구축하고, 지식 기반 데이터베이스를 통해 질문에 대한 답변을 생성할 수 있다. 즉, 본 발명의 일 실시예에 따른 장치(1)는 사람이 직접 판별 대상 뉴스를 검증하는 것이 아니라 지식 기반 데이터베이스를 통해 판별 대상 뉴스의 사실성에 대한 답변을 생성하므로 빠르고 정확한 가짜 뉴스 탐색이 가능하다.As described above, the apparatus 1 according to an embodiment of the present invention may construct a knowledge base database after refining natural language content, and generate an answer to a question through the knowledge base database. That is, the device 1 according to an embodiment of the present invention does not verify the news to be directly determined by a person, but generates a response to the fact of the news to be determined through a knowledge base, so that it is possible to search for fake news quickly and accurately. .

이하 도 4를 참조하여 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법에 대해 설명한다.Hereinafter, a method of discriminating fake news using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention will be described with reference to FIG. 4.

도 4는 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법의 흐름도이다.4 is a flowchart of a fake news discrimination method using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법은 도 1에 도시된 본 발명의 일 실시예에 따른 장치(1)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서 도 1의 장치(1)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.The method for discriminating fake news using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention may be performed in substantially the same configuration as the device 1 according to an embodiment of the present invention shown in FIG. 1. Therefore, the same components as the device 1 in FIG. 1 are given the same reference numerals, and repeated descriptions are omitted.

도 4를 참조하면, 자연어 콘텐츠 입력부(10) 및 질문 입력부(15)는 각각 자연어 콘텐츠 및 질문을 입력 받을 수 있다(S100).Referring to FIG. 4, the natural language content input unit 10 and the question input unit 15 may receive natural language content and questions, respectively (S100 ).

자연어 콘텐츠 입력부(10)는 인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 수집할 수 있다. 예를 들면, 자연어 콘텐츠는 인터넷 상의 뉴스, 백과사전, 보고서, 나무위키 등으로부터 수집되는 문장에 해당한다.The natural language content input unit 10 may collect natural language content corresponding to a sentence composed of natural language on the Internet. For example, natural language content corresponds to sentences collected from news, encyclopedias, reports, and tree wikis on the Internet.

질문 입력부(15)는 판별 대상 뉴스에 해당하는 질문 문장을 입력 받을 수 있다. 질문 입력부(15)에서 입력 받는 질문 문장의 형태는 참/거짓 문답의 질문, 인과 질문, 확인 질문, 의견을 구하는 질문 등으로 나뉠 수 있다. The question input unit 15 may receive a question sentence corresponding to the news to be discriminated. The form of the question sentence received by the question input unit 15 may be divided into a true/false question, a causal question, a confirmation question, and a question for asking for opinion.

지식 기반 데이터베이스 구성부(30)는 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성할 수 있다(S200).The knowledge base configuration unit 30 may construct a knowledge base database by analyzing natural language content (S200 ).

지식 기반 데이터베이스 구성부(30)는 자연어 콘텐츠의 도메인, 데이터 타입 및 문장 구조를 분석할 수 있다. 지식 기반 데이터베이스 구성부(30)는 자연어 콘텐츠 분석 결과에 따라 자연어 콘텐츠를 서로 연관성 있는 콘텐츠 별로 분류하여 지식 기반 데이터베이스로 저장할 수 있다. 지식 기반 데이터베이스 구성부(30)는 자연어 콘텐츠 분류 결과에 따라 자연어 콘텐츠의 전달 루트를 분석하여 해당 내용의 출처 경위를 확인할 수 있다. 계층적 출처 분석부(33)는 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 지식 기반 데이터베이스로 저장할 수 있다.The knowledge base configuration unit 30 may analyze the domain, data type, and sentence structure of natural language content. The knowledge base database construction unit 30 may classify natural language contents into contents that are related to each other according to the results of the analysis of the natural language contents and store them in the knowledge base database. The knowledge base construction unit 30 may analyze the delivery route of the natural language content according to the classification result of the natural language content to check the origin of the content. The hierarchical source analysis unit 33 may classify the natural language content hierarchically according to the source context and store it as a knowledge base database.

지식 기반 데이터베이스 구성부(30)는 지식 기반 데이터베이스로부터 질문에 대한 답변 후보군을 추출할 수 있다(S300).The knowledge base configuration unit 30 may extract a candidate group for answering a question from the knowledge base database (S300).

지식 기반 데이터베이스 구성부(30)는 지식 기반 데이터베이스에서 질문 입력부(15)에서 입력 받는 질문과 관련된 자연어 콘텐츠를 질문에 대한 답변 후보군으로 추출할 수 있다. 지식 기반 데이터베이스 구성부(30)는 지식 기반 데이터베이스로부터 답변 후보군을 추출하기 위해 질문을 식별 및 분류하여 신뢰성 메트릭을 구성할 수 있다.The knowledge base configuration unit 30 may extract natural language content related to a question input from the question input unit 15 from the knowledge base database as a candidate candidate for answering the question. The knowledge base configuration unit 30 may construct reliability metrics by identifying and classifying questions to extract candidate candidates from the knowledge base.

지식 기반 추론부(50)는 질문 및 답변 후보군을 추론 엔진에 입력하여 답변을 생성할 수 있다(S400).The knowledge-based reasoning unit 50 may generate a response by inputting a question and answer candidate group into the reasoning engine (S400).

지식 기반 추론부(50)는 질문 문장의 형태에 따라 답변 형태를 참/거진 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정할 수 있다. 지식 기반 추론부(50)는 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 추론 모델로 트리구조 분석 모델을 설정하고, 답변 형태가 인과 답변 또는 확인 답변과 같이 참/거짓 문답의 답변이 아닌 답변으로 설정되는 경우, 추론 모델로 딥러닝 학습 기반의 추론 모델을 설정할 수 있다. The knowledge-based reasoning unit 50 may set the answer type as one of answers to true/false questions, causal answers, and confirmation answers according to the type of the question sentence. The knowledge-based reasoning unit 50 sets the tree structure analysis model as an inference model when the answer type is set to the answer of the true/false question and answer, and the answer of the true/false question and answer as the answer type is a causal answer or confirmation answer. If it is set as a non-answer, a deep learning learning-based reasoning model may be set as an inference model.

트리구조 분석 모델 질문 및 답변 후보군의 트리구조에 대한 개체명 및 구문론적 비교 분석을 수행하여 질문의 의도에 해당하는 내용이 답변 후보군에 존재하는지 여부에 따라 참/거짓의 답변을 생성할 수 있다.Tree structure analysis model By performing object name and syntactic comparison analysis of the tree structure of the question and answer candidate groups, a true/false answer can be generated according to whether the content corresponding to the intention of the question exists in the answer candidate group.

딥러닝 학습 기반 추론 모델은 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 질문에 대한 답변을 생성할 수 있다. The deep learning learning-based reasoning model may generate an answer to a question by inputting a vector value calculated by analyzing a sentence structure of an answer candidate group into a BERT deep learning network.

답변 검증부(70)는 지식 기반 추론부(50)에서 생성한 답변을 검증하고, 출력부(90)는 이를 출력할 수 있다(S500)The answer verification unit 70 verifies the answer generated by the knowledge-based reasoning unit 50, and the output unit 90 may output it (S500).

답변 검증부(70)는 지식 기반 추론부(50)에서 생성하는 답변의 신뢰성을 검증할 수 있다. 예를 들면, 답변 검증부(70)는 이전에 사실로 판별된 문장, 사실로 알려진 문장 등에 답변이 있는지 역 추적하여 답변을 검증할 수 있다. 또는, 답변 검증부(70)는 문장을 출처 경위에 따라 분류하여 저장하는 지식 기반 데이터베이스를 이용하여 답변과 다른 출처에 답변과 비슷한 문장이 있는지를 확인하는 방식으로 답변을 검증할 수 있다. 또는, 답변 검증부(70)는 신뢰성 메트릭을 이용하여 답변을 검증할 수 있다. 신뢰성 메트릭은 시간 분류, 출처 식별, 경로 분석, 대명사 출처, 지식 수준 분석 등의 식별 및 분류 작업이 이루어질 수 있다. 답변 검증부(70)는 신뢰성 메트릭의 시간 분류, 출처 식별, 경로 분석, 대명사 출처, 지식 수준 분석 각각에 해당하는 식별 및 분류에 가중치를 더하여, 답변에 해당하는 신뢰도를 수치적으로 계산할 수도 있다.The answer verification unit 70 may verify the reliability of the answer generated by the knowledge-based reasoning unit 50. For example, the answer verification unit 70 may verify the answer by backtracking whether there is an answer, such as a sentence previously determined to be true or a sentence known to be true. Alternatively, the answer verification unit 70 may verify the answer by checking whether there is a sentence similar to the answer in the answer and another source using a knowledge-based database that classifies and stores the sentence according to the source context. Alternatively, the answer verification unit 70 may verify the answer using the reliability metric. Reliability metrics can be identified and classified, such as time classification, source identification, route analysis, pronoun source, and knowledge level analysis. The answer verification unit 70 may numerically calculate the reliability corresponding to the answer by adding weights to identification and classification corresponding to time classification, source identification, route analysis, pronoun source, and knowledge level analysis of the reliability metric.

이와 같은 본 발명의 일 실시예에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법은 어플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.Such a method for discriminating fake news using knowledge-based reasoning and reliability analysis according to an embodiment of the present invention is implemented in the form of program instructions that can be implemented as an application or performed through various computer components to a computer-readable recording medium. Can be recorded. The computer-readable recording medium may include program instructions, data files, data structures, or the like alone or in combination.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.The program instructions recorded on the computer-readable recording medium are specially designed and configured for the present invention, and may be known and available to those skilled in the computer software field.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of program instructions include not only machine language codes produced by a compiler, but also high-level language codes executable by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform processing according to the present invention, and vice versa.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although described above with reference to embodiments, those skilled in the art understand that various modifications and changes can be made to the present invention without departing from the spirit and scope of the present invention as set forth in the claims below. Will be able to.

1: 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치
10: 자연어 콘텐츠 입력부
15: 질문 입력부
30: 지식 기반 데이터베이스 구성부
50: 지식 기반 추론부
70: 답변 검증부
90: 출력부
1: Fake news discrimination device using knowledge-based reasoning and reliability analysis
10: natural language content input unit
15: Question input
30: Knowledge Base Database Components
50: knowledge base reasoning
70: answer verification department
90: output

Claims (16)

판별 대상 뉴스에 해당하는 질문을 입력 받는 질문 입력부;
인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 입력 받는 자연어 콘텐츠 입력부;
상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하고, 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 지식 기반 데이터베이스 구성부; 및
상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 지식 기반 추론부;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
A question input unit that receives a question corresponding to the news to be determined;
A natural language content input unit that receives natural language content corresponding to a sentence in natural language on the Internet;
A knowledge base database constructing unit configured to analyze the natural language content to construct a knowledge base database, and extract natural language content related to the question from the knowledge base database as a candidate candidate for answering the question; And
A knowledge-based reasoning unit comprising: a knowledge-based reasoning unit that generates the answer to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question.
제1항에 있어서,
상기 지식 기반 추론부는,
상기 질문의 형태를 분석하여 상기 질문에 대한 답변 형태를 참/거짓 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정하는 답변 형태 분석부;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
According to claim 1,
The knowledge-based reasoning unit,
Analyzing the type of the question and setting the answer type for the question as one of true/false question answer, causal answer, and confirmation answer; including, knowledge-based reasoning and reliability analysis to determine fake news Device.
제2항에 있어서,
상기 지식 기반 추론부는,
상기 질문에 대한 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 상기 질문 및 상기 답변 후보군을 트리화하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 트리구조 분석 모델을 상기 질문의 추론 모델으로 설정하고,
상기 질문에 대한 답변 형태가 인과 답변 또는 확인 답변으로 설정되는 경우, 딥러닝 학습 기반의 추론 모델을 상기 질문의 추론 모델으로 설정하는 추론 엔진 모델 선택부;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
According to claim 2,
The knowledge-based reasoning unit,
If the answer type for the question is set to answer true/false questions and answers, the tree structure analysis model that compares the intent of the natural language content included in the answer candidate group by treeing the question and answer candidate group is recalled. Set it as a reasoning model for questions,
If the answer form for the question is set to a causal answer or confirmation answer, further comprising: a reasoning engine model selection unit for setting a deep learning learning-based reasoning model as the reasoning model of the question; further comprising, knowledge-based reasoning and reliability analysis Fake news discrimination device using.
제1항에 있어서,
상기 지식 기반 데이터베이스 구성부는,
상기 자연어 콘텐츠를 도메인의 스코프, 미디어 종류 및 도메인의 카테고리에 따라 분류하고, 상기 자연어 콘텐츠를 데이터의 크기, 언어 형태 및 데이터의 구조에 따라 분류하며, 상기 자연어 콘텐츠의 문장 구조를 분석하여 벡터 값을 산출하는 입력 데이터 분석부;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
According to claim 1,
The knowledge base database configuration unit,
The natural language content is classified according to a domain scope, media type, and domain category, and the natural language content is classified according to data size, language form, and data structure, and the sentence structure of the natural language content is analyzed to obtain a vector value. Computing input data analysis unit; including, knowledge-based reasoning and fake news discrimination device using reliability analysis.
제4항에 있어서,
상기 지식 기반 데이터베이스 구성부는,
상기 자연어 콘텐츠의 분류 결과에 따라 상기 자연어 콘텐츠의 전달 루트를 분석하여 상기 자연어 콘텐츠의 출처 경위를 확인하고, 상기 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 상기 지식 기반 데이터베이스로 저장하는 계층적 출처 분석부;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
The method of claim 4,
The knowledge base database configuration unit,
A hierarchical source that analyzes the delivery route of the natural language content according to the classification result of the natural language content, checks the origin of the natural language content, classifies the natural language content hierarchically according to the origin, and stores the natural language content in the knowledge base database Analysis unit; further comprising, fake news discrimination device using knowledge-based reasoning and reliability analysis.
제5항에 있어서,
상기 지식 기반 데이터베이스 구성부는,
상기 질문의 출처를 식별하고, 상기 질문의 출처에 기반하여 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 신뢰성 메트릭 기반 분석부;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
The method of claim 5,
The knowledge base database configuration unit,
Reliability metric based analysis unit for identifying the source of the question and extracting natural language content related to the question from the knowledge base database as a candidate candidate for answering the question based on the source of the question; And fake news discrimination device using reliability analysis.
제1항에 있어서,
상기 지식 기반 추론부는,
상기 추론 모델 중 하나로 상기 질문 및 상기 답변 후보군의 문장 구조를 트리화하고, 상기 질문 및 상기 답변 후보군에 대한 개체명 및 구문론적 분석을 수행하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 방식으로 상기 질문에 대한 답변을 생성하는 트리구조 분석 모델; 및
상기 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 상기 질문에 대한 답변을 생성하는 딥러닝 학습 기반 추론 모델;을 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
According to claim 1,
The knowledge-based reasoning unit,
Trim the sentence structure of the question and answer candidate groups as one of the inference models, and perform the object name and syntactic analysis of the question and answer candidate groups to determine the intention of natural language content included in the question and answer candidate groups. A tree structure analysis model for generating answers to the questions in a comparison manner; And
Including a vector value calculated by analyzing the sentence structure of the candidate candidate group into a BERT deep learning network to generate a response to the question; a deep learning learning-based reasoning model; including, fake news using knowledge-based reasoning and reliability analysis Discrimination device.
제1항에 있어서,
상기 지식 기반 추론부에서 생성하는 답변의 신뢰성을 검증하는 답변 검증부;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 장치.
According to claim 1,
Further comprising, answer verification unit for verifying the reliability of the answer generated by the knowledge-based reasoning unit; Fake news discrimination apparatus using knowledge-based reasoning and reliability analysis.
판별 대상 뉴스에 해당하는 질문을 입력 받는 단계;
인터넷 상의 자연어로 이루어진 문장에 해당하는 자연어 콘텐츠를 입력 받는 단계;
상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계;
상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계; 및
상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
Receiving a question corresponding to the discrimination target news;
Receiving natural language content corresponding to a sentence in natural language on the Internet;
Constructing a knowledge base by analyzing the natural language content;
Extracting natural language content related to the question from the knowledge base as a candidate candidate for answering the question; And
And generating a response to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question. A method of determining fake news using knowledge-based reasoning and reliability analysis.
제9항에 있어서,
상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는,
상기 질문의 형태를 분석하여 상기 질문에 대한 답변 형태를 참/거짓 문답의 답변, 인과 답변 및 확인 답변 중 하나로 설정하는 단계;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 9,
The step of constructing a knowledge base by analyzing the natural language content is
Analyzing the type of the question and setting the answer type to the question as one of true/false question answer, causal answer, and confirmation answer; including, knowledge-based reasoning and fake news discrimination method using reliability analysis.
제10항에 있어서,
상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계는,
상기 질문에 대한 답변 형태가 참/거짓 문답의 답변으로 설정되는 경우, 상기 질문 및 상기 답변 후보군을 트리화하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 트리구조 분석 모델을 상기 질문의 추론 모델으로 설정하는 단계; 및
상기 질문에 대한 답변 형태가 인과 답변 또는 확인 답변으로 설정되는 경우, 딥러닝 학습 기반의 추론 모델을 상기 질문의 추론 모델으로 설정하는 단계;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 10,
Generating an answer to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question,
If the answer type for the question is set to answer true/false questions and answers, the tree structure analysis model that compares the intent of the natural language content included in the answer candidate group by treeing the question and answer candidate group is recalled. Establishing a question inference model; And
When the answer form for the question is set as a causal answer or confirmation answer, setting a deep learning learning-based reasoning model as the reasoning model of the question; further comprising, fake news using knowledge-based reasoning and reliability analysis Discrimination method.
제9항에 있어서,
상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는,
상기 자연어 콘텐츠를 도메인의 스코프, 미디어 종류 및 도메인의 카테고리에 따라 분류하는 단계;
상기 자연어 콘텐츠를 데이터의 크기, 언어 형태 및 데이터의 구조에 따라 분류하는 단계; 및
상기 자연어 콘텐츠의 문장 구조를 분석하여 벡터 값을 산출하는 단계;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 9,
The step of constructing a knowledge base by analyzing the natural language content is
Classifying the natural language content according to a domain scope, media type, and domain category;
Classifying the natural language content according to data size, language form, and data structure; And
Comprising the step of analyzing the sentence structure of the natural language content to calculate a vector value; including, knowledge-based reasoning and fake news discrimination method using reliability analysis.
제12항에 있어서,
상기 자연어 콘텐츠를 분석하여 지식 기반 데이터베이스를 구성하는 단계는,
상기 자연어 콘텐츠의 분류 결과에 따라 상기 자연어 콘텐츠의 전달 루트를 분석하여 상기 자연어 콘텐츠의 출처 경위를 확인하는 단계;
상기 자연어 콘텐츠를 출처 경위에 따라 계층적으로 분류하여 상기 지식 기반 데이터베이스로 저장하는 단계;를 더 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 12,
The step of constructing a knowledge base by analyzing the natural language content is
Determining a source of origin of the natural language content by analyzing a delivery route of the natural language content according to the classification result of the natural language content;
A method of discriminating fake news using knowledge-based reasoning and reliability analysis, further comprising: classifying the natural language content hierarchically according to the source context and storing it in the knowledge-based database.
제13항에 있어서,
상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계는,
상기 질문의 출처를 식별하고, 상기 질문의 출처에 기반하여 상기 지식 기반 데이터베이스로부터 상기 질문과 관련된 자연어 콘텐츠를 상기 질문에 대한 답변 후보군으로 추출하는 단계;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 13,
Extracting natural language content related to the question from the knowledge base into candidate groups for answering the question,
Identifying the origin of the question, and extracting natural language content related to the question from the knowledge base database as a candidate candidate for answering the question based on the origin of the question; Using knowledge-based reasoning and reliability analysis How to identify fake news.
제9항에 있어서,
상기 질문 및 상기 답변 후보군을 상기 질문의 형태에 따라 정해지는 추론 모델에 입력하여 상기 질문에 대한 답변을 생성하는 단계는,
상기 추론 모델 중 하나로 상기 질문 및 상기 답변 후보군의 문장 구조를 트리화하고, 상기 질문 및 상기 답변 후보군에 대한 개체명 및 구문론적 분석을 수행하여 상기 질문과 상기 답변 후보군에 포함되는 자연어 콘텐츠의 의도를 비교하는 방식으로 상기 질문에 대한 답변을 생성하는 단계; 및
상기 답변 후보군의 문장 구조를 분석하여 산출되는 벡터 값을 BERT 딥러닝 네트워크에 입력하여 상기 질문에 대한 답변을 생성하는 단계;를 포함하는, 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법.
The method of claim 9,
Generating an answer to the question by inputting the question and the answer candidate group into an inference model determined according to the type of the question,
Trim the sentence structure of the question and answer candidate groups as one of the inference models, and perform the object name and syntactic analysis of the question and answer candidate groups to determine the intention of natural language content included in the question and answer candidate groups. Generating an answer to the question in a manner of comparison; And
And generating a response to the question by inputting a vector value calculated by analyzing a sentence structure of the answer candidate group into a BERT deep learning network; a method of discriminating fake news using knowledge-based reasoning and reliability analysis.
제9항에 따른 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.A computer-readable recording medium in which a computer program is recorded for performing the method for discriminating fake news using knowledge-based reasoning and reliability analysis according to claim 9.
KR1020190008303A 2018-11-30 2019-01-22 Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method KR102206781B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180151971 2018-11-30
KR1020180151971 2018-11-30

Publications (2)

Publication Number Publication Date
KR20200066119A true KR20200066119A (en) 2020-06-09
KR102206781B1 KR102206781B1 (en) 2021-01-25

Family

ID=71082730

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190008303A KR102206781B1 (en) 2018-11-30 2019-01-22 Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method

Country Status (1)

Country Link
KR (1) KR102206781B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220001619A (en) * 2020-06-30 2022-01-06 주식회사 에이아이스페라 Method and program for providing fraud information
WO2022045488A1 (en) * 2020-08-25 2022-03-03 숭실대학교산학협력단 Method and apparatus for knowledge completion via rule generation based on neural symbolic method
KR102451552B1 (en) * 2021-06-21 2022-10-06 강미현 Content analysis system for authenticity verifying of content based on deep learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020017076A (en) * 2000-08-28 2002-03-07 인소란, 최정자 Knowledge base custom made information offer system and service method thereof
KR20170107282A (en) * 2016-03-15 2017-09-25 한국전자통신연구원 Apparatus and method for supporting decision making based on natural language understanding and question and answer
KR20180004960A (en) * 2016-07-05 2018-01-15 한국전자통신연구원 Hybrid reasoning based natural language query and answer system and method thereof
KR101849750B1 (en) * 2017-01-26 2018-04-17 주식회사 솔트룩스 Interactive Automatic Question-Answering System

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020017076A (en) * 2000-08-28 2002-03-07 인소란, 최정자 Knowledge base custom made information offer system and service method thereof
KR20170107282A (en) * 2016-03-15 2017-09-25 한국전자통신연구원 Apparatus and method for supporting decision making based on natural language understanding and question and answer
KR20180004960A (en) * 2016-07-05 2018-01-15 한국전자통신연구원 Hybrid reasoning based natural language query and answer system and method thereof
KR101849750B1 (en) * 2017-01-26 2018-04-17 주식회사 솔트룩스 Interactive Automatic Question-Answering System

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220001619A (en) * 2020-06-30 2022-01-06 주식회사 에이아이스페라 Method and program for providing fraud information
WO2022045488A1 (en) * 2020-08-25 2022-03-03 숭실대학교산학협력단 Method and apparatus for knowledge completion via rule generation based on neural symbolic method
KR102451552B1 (en) * 2021-06-21 2022-10-06 강미현 Content analysis system for authenticity verifying of content based on deep learning

Also Published As

Publication number Publication date
KR102206781B1 (en) 2021-01-25

Similar Documents

Publication Publication Date Title
García-Díaz et al. Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
KR20190133931A (en) Method to response based on sentence paraphrase recognition for a dialog system
CN104471568A (en) Learning-based processing of natural language questions
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN106570180A (en) Artificial intelligence based voice searching method and device
US9632998B2 (en) Claim polarity identification
KR102206781B1 (en) Method of fake news evaluation based on knowledge-based inference, recording medium and apparatus for performing the method
CN113590810B (en) Abstract generation model training method, abstract generation device and electronic equipment
CN111259645A (en) Referee document structuring method and device
Shekhawat Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach
Park et al. Using syntactic features for phishing detection
CN112069312A (en) Text classification method based on entity recognition and electronic device
CN111241397A (en) Content recommendation method and device and computing equipment
Atreja et al. Citicafe: An interactive interface for citizen engagement
CN114186040A (en) Operation method of intelligent robot customer service
Kasmuri et al. Subjectivity analysis in opinion mining—a systematic literature review
CN111274354B (en) Referee document structuring method and referee document structuring device
Shrestha Detecting fake news with sentiment analysis and network metadata
Hussain et al. A technique for perceiving abusive bangla comments
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
Malhar et al. Deep learning based Answering Questions using T5 and Structured Question Generation System’
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
CN111949781B (en) Intelligent interaction method and device based on natural sentence syntactic analysis
Nguyen-Son et al. Identifying adversarial sentences by analyzing text complexity

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant