KR102340542B1

KR102340542B1 - 자동화 기반의 가짜 뉴스 탐지 장치 및 방법

Info

Publication number: KR102340542B1
Application number: KR1020190147128A
Authority: KR
Inventors: 임희석; 좌희정; 강장묵
Original assignee: 고려대학교 산학협력단
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-12-20
Also published as: KR20210059544A

Abstract

가짜 뉴스 분류 장치가 개시된다. 상기 가짜 뉴스 분류 장치는 적어도 제목(headline)과 본문(body text)로 구성된 뉴스들을 이용하여 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 사전-학습(pre-training)시키는 사전 학습부, 미리 정해진 데이터셋(dataset)을 이용하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부 및 상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부를 포함한다.

Description

자동화 기반의 가짜 뉴스 탐지 장치 및 방법{DEVICE AND METHOD FOR AUTOMATIC FAKE NEWS DETECTION}

본 발명은 자동화 기반의 가짜 뉴스 탐지를 위한 방법에 관한 것이다.

가짜 정보(fake information)는 비디오(videos), 오디오(audio), 이미지(images), 텍스트(text) 등과 같이 다양한 형태로 발현된다. 게다가, 텍스트 형식(text form)의 가짜 정보는 뉴스(news), 소셜 네트워크 서비스(social network services), 연설(speeches), 문서(documents) 등으로 분류될 수 있다. 본 발명에서는 텍스트 기반의 가짜 뉴스(text-based fake news)에 집중함으로써 가짜 뉴스를 탐지하는 방법을 위한 모델을 제안한다. 허위 정보(fraudulent information) 또는 위조 정보(falsified information)는 급격하게 확산되어, 독자들이 해당 정보가 가짜 뉴스임을 탐지하지 못하면 문제가 된다.

2015년에 IFCN(the International Fact-Checking Network)이 설립되었다. IFCN은 사실 확인 경향(fact check trends)을 관찰하고, 사실 확인자(fack checker)를 위한 훈련 프로그램(training programs)을 제공한다. 게다가, 가짜 뉴스의 확산을 방지하기 위한 다양한 노력들이 시도되고 있다. Politifact(https://www.politifact.com)사와 snopes(https://www.snopes.com)사는 가짜 뉴스 탐지툴을 개발하였다. 그러나, 이러한 툴들은 사람이 직접 개입하여 판단하는 방식으로 시간과 비용이 소요되는 문제점이 있다. 따라서, 자동으로 가짜 뉴스를 탐지하는 모델이 요구된다.

1. Pham, L. Transferring, Transforming, Ensembling: The Novel Formula of Identifying Fake News. In Proceedings of the 12th ACM International Conference on Web Search and Data Mining, Melbourne, Australia, 11-15 February 2019. 2. Liu, S.; Liu, S.; Ren, L. Trust or Suspect? An Empirical Ensemble Framework for Fake News Classification. In Proceedings of the 12th ACM International Conference on Web Search and Data Mining, Melbourne, Australia, 11-15 February 2019. 3. Yang, K.C.; Niven, T.; Kao, H.Y. Fake News Detection as Natural Language Inference. In Proceedings of the 12th ACM International Conference on Web Search and Data Mining, Melbourne, Australia, 11-15 February 2019. 4. Omidvar, A.; Jiang, H.; An, A. Using Neural Network for Identifying Clickbaits in Online News Media. In Annual International Symposium on Information Management and Big Data, Lima, Peru, 3-5 September 2018; Springer: Cham, Switzerland, 2018; pp. 220-232. 5. Zhou, Y. Clickbait detection in tweets using self-attentive network. arXiv 2017, arXiv:1710.05364. 6. Grigorev, A. Identifying clickbait posts on social media with an ensemble of linear models. arXiv 2017, arXiv:1710.00399. 7. Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.S.; Dean, J. Distributed representations of words and phrases and their compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, NV, USA, 5-10 December 2013; pp. 3111-3119. 8. Bojanowski, P.; Grave, E.; Joulin, A.; Mikolov, T. Enriching word vectors with subword information. Trans. Assoc. Comput. Linguist. 2017, 5, 135-146. 9. Peters, M.E.; Neumann, M.; Iyyer, M.; Gardner, M.; Clark, C.; Lee, K.; Zettlemoyer, L. Deep contextualized word representations. arXiv 2018, arXiv:1802.05365. 10. Devlin, J.; Chang, M.W.; Lee, K.; Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv 2018, arXiv:1810.04805. 11. Radford, A.; Narasimhan, K.; Salimans, T.; Sutskever, I. Improving Language Understanding by Generative Pre-Training. 2018. Available online: https://s3-us-west-2.amazonaws.com/openai-assets/researchcovers/languageunsupervised/languageunderstandingpaper.pdf (accessed on 20 September 2019). 12. Schuster, M.; Paliwal, K.K. Bidirectional recurrent neural networks. IEEE Trans. Signal Process. 1997, 45, 2673-2681. 13. Wang, W.Y. "Liar, liar pants on fire": A new benchmark dataset for fake news detection. arXiv 2017, arXiv:1705.00648. 14. Ruchansky, N.; Seo, S.; Liu, Y. Csi: A hybrid deep model for fake news detection. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, Singapore, 6-10 November 2017; ACM: New York, NY, USA, 2017; pp. 797-806. 15. Kochkina, E.; Liakata, M.; Augenstein, I. Turing at semeval-2017 task 8: Sequential approach to rumour stance classification with branch-lstm. arXiv 2017, arXiv:1704.07221. 16. Popat, K.; Mukherjee, S.; Yates, A.; Weikum, G. DeClarE: Debunking fake news and false claims using evidence-aware deep learning. arXiv 2018, arXiv:1809.06416. 17. Yang, Y.; Zheng, L.; Zhang, J.; Cui, Q.; Li, Z.; Yu, P.S. TI-CNN: Convolutional neural networks for fake news detection. arXiv 2018, arXiv:1806.00749. 18. Rasool, T.; Butt, W.H.; Shaukat, A.; Akram, M.U. Multi-Label Fake News Detection using Multi-layered Supervised Learning. In Proceedings of the 2019 11th International Conference on Computer and Automation Engineering, Perth, Australia, 23-25 February 2019; ACM: New York, NY, USA, 2019; pp. 73-77. 19. Yang, S.; Shu, K.; Wang, S.; Gu, R.; Wu, F.; Liu, H. Unsupervised fake news detection on social media: A generative approach. In Proceedings of the 33rd AAAI Conference on Artificial Intelligence, Honolulu, HI, USA, 27 January-1 February 2019. 20. Feng, S.; Banerjee, R.; Choi, Y. Syntactic stylometry for deception detection. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers- Volume 2, Jeju Island, Korea, 8-14 July 2012; pp. 171-175. 21. Sean, B.; Doug, S.; Yuxi, P. Talos Targets Disinformation with Fake News Challenge Victory. 2017. Available online: https://blog.talosintelligence.com/2017/06/talos-fake-news-challenge.html (accessed on 20 September 2019). 22. De Lathauwer, L.; De Moor, B.; Vandewalle, J. A multilinear singular value decomposition. SIAM J. Matrix Anal. Appl. 2000, 21, 1253-1278. 23. Ramos, J. Using tf-idf to determine word relevance in document queries. In Proceedings of the First Instructional Conference on Machine Learning, Piscataway, NJ, USA, 3-8 December 2003; Volume 242, pp. 133-142. 24. Davis, R.; Proctor, C. Fake news, real consequences: Recruiting neural networks for the fight against fake news. 2017. Available online: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1174/reports/2761239.pdf (accessed on 20 September 2019). 25. Hanselowski, A.; PVS, A.; Schiller, B.; Caspelherr, F.; Chaudhuri, D.; Meyer, C.M.; Gurevych, I. A retrospective analysis of the fake news challenge stance detection task. arXiv 2018, arXiv:1806.05180. 26. Hochreiter, S.; Schmidhuber, J. Long short-term memory. Neural Comput. 1997, 9, 1735-1780. 27. Hermans, M.; Schrauwen, B. Training and Analysing Deep Recurrent Neural Networks. In Advances in Neural Information Processing Systems 26; Burges, C.J.C., Bottou, L.,Welling, M., Ghahramani, Z.,Weinberger, K.Q., Eds.; Curran Associates, Inc.: New York, NY, USA, 2013; pp. 190-198. 28. Riedel, B.; Augenstein, I.; Spithourakis, G.P.; Riedel, S. A simple but tough-to-beat baseline for the Fake News Challenge stance detection task. arXiv 2017, arXiv:1707.03264. 29. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. In Proceedings of the 31st Conference on Neural Information Processing System, Long Beach, CA, USA, 4-9 December 2017; pp. 5998-6008. 30. Diaz, M.; Ferrer, M.A.; Impedovo, D.; Pirlo, G.; Vessio, G. Dynamically enhanced static handwriting representation for Parkinson’s disease detection. Pattern Recognit. Lett. 2019, 128, 204-210. 31. Lee, J.; Yoon, W.; Kim, S.; Kim, D.; Kim, S.; So, C.H.; Kang, J. Biobert: Pre-trained biomedical language representation model for biomedical text mining. arXiv 2019, arXiv:1901.08746. 32. Liu, Y.; Lapata, M. Text Summarization with Pretrained Encoders. arXiv 2019, arXiv:1908.08345. 33. See, A.; Liu, P.J.; Manning, C.D. Get to the point: Summarization with pointer-generator networks. arXiv 2017, arXiv:1704.04368. 34. Liu, Y. Fine-tune BERT for Extractive Summarization. arXiv 2019, arXiv:1903.10318. 35. Liu, L.; Lu, Y.; Yang, M.; Qu, Q.; Zhu, J.; Li, H. Generative adversarial network for abstractive text summarization. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, LA, USA, 2-7 February 2018. 36. Paulus, R.; Xiong, C.; Socher, R. A deep reinforced model for abstractive summarization. arXiv 2017, arXiv:1705.04304. 37. Hermann, K.M.; Kocisky, T.; Grefenstette, E.; Espeholt, L.; Kay, W.; Suleyman, M.; Blunsom, P. Teaching Machines to Read and Comprehend. In Advances in Neural Information Processing Systems 28; Cortes, C., Lawrence, N.D., Lee, D.D., Sugiyama, M., Garnett, R., Eds.; Curran Associates, Inc.: New York, NY, USA, 2015; pp. 1693-1701. 38. Yang, K.; Lee, D.; Whang, T.; Lee, S.; Lim, H. EmotionX-KU: BERT-Max based Contextual Emotion Classifier. arXiv 2019, arXiv:1906.11565. 39. Aurelio, Y.S.; de Almeida, G.M.; de Castro, C.L.; Braga, A.P. Learning from imbalanced data sets with weighted cross-entropy function. Neural Process. Lett. 2019, 1-13, doi:10.1007/s11063-018-09977-1. 40. Sudre, C.H.; Li, W.; Vercauteren, T.; Ourselin, S.; Cardoso, M.J. Generalised Dice Overlap as a Deep Learning Loss Function for Highly Unbalanced Segmentations. In Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support; Springer: New York, NY, USA, 2017; pp. 240-248. 41. Neyshabur, B.; Bhojanapalli, S.; McAllester, D.; Srebro, N. Exploring generalization in deep learning. In Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, CA, USA, 4-9 December 2017; pp. 5947-5956. 42. Zhang, Z.; Sabuncu, M. Generalized cross entropy loss for training deep neural networks with noisy labels. In Proceedings of the 32nd International Conference on Neural Information Processing Systems, Montreal, QC, Canada, 3-8 December 2018; pp. 8778-8788. 43. Shang, W.; Huang, H.; Zhu, H.; Lin, Y.; Qu, Y.; Wang, Z. A novel feature selection algorithm for text categorization. Expert Syst. Appl. 2007, 33, 1-5.

본 발명이 이루고자 하는 기술적인 과제는 자동화 기반의 가짜 뉴스 탐지 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 가짜 뉴스 분류 장치는 적어도 제목(headline)과 본문(body text)로 구성된 뉴스들을 이용하여 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 사전-학습(pre-training)시키는 사전 학습부, 미리 정해진 뉴스 데이터셋(dataset)을 추가로 학습하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부 및 상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부를 포함한다.

본 발명의 실시 예에 따른 자동화 기반의 가짜 뉴스 탐지 장치 및 방법에 의할 경우, 뉴스의 제목과 본문의 내용에 기초하여 해당 뉴스가 가짜 뉴스인지 여부를 탐지할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 가짜 뉴스 탐지 장치의 기능 블럭도이다.
도 2는 도 1에 도시된 가짜 뉴스 탐지 장치에 의해 생성된 가짜 뉴스 탐지 모델을 도시한다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.

본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 가짜 뉴스 탐지 장치의 기능 블럭도이고, 도 2는 도 1에 도시된 가짜 뉴스 탐지 장치에 의해 생성된 가짜 뉴스 탐지 모델을 도시한다.

가짜 뉴스 탐지 장치(10, 이하에서는 탐지 장치라 함)는 사전 학습부(110), 미세 조정부(120) 및 저장부(150)를 포함한다. 실시예에 따라, 탐지 장치(10)는 테스트부(130) 및/또는 분류부(140)를 더 포함할 수도 있다. 탐지 장치(10)는 제목(title or headline)과 본문(body text)으로 구성된 뉴스(news)를 입력받아 입력된 뉴스가 가짜뉴스인지 여부를 판단하는 모델, 즉 가짜 뉴스 탐지 모델(이하, 탐지 모델이라 함)을 생성하고, 생성된 탐지 모델을 이용하여 분류 대상 뉴스를 분류할 수 있다. 예컨대, 탐지 장치(10)는 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 학습시킴으로써 탐지 모델을 생성할 수 있다.

탐지 장치(10)는 적어도 하나의 프로세서를 이용하여 구현될 수 있으며, 여기서, 프로세서는 중앙 처리 장치(CPU, Central Processing Unit), 마이크로 컨트롤러 유닛(MCU, Micro Controller Unit), 애플리케이션 프로세서(AP, Application Processor), 마이컴(Micom, Micro Processor), 전자 제어 유닛(ECU, Electronic Controlling Unit) 및/또는 각종 연산 처리 및 제어 신호의 생성이 가능한 다른 전자 장치 등을 포함할 수 있다. 이들 장치는, 예를 들어, 하나 또는 둘 이상의 반도체 칩 및 관련 부품을 이용하여 구현될 수 있다. 일 실시예에 의하면, 프로세서는 저장부(140)에 저장된 적어도 하나의 애플리케이션(소프트웨어, 프로그램이나 앱 등으로 표현 가능하다)을 구동시켜, 미리 정의된 연산, 판단, 처리 및/또는 제어 동작 등을 수행할 수도 있다. 여기서, 저장부(150)에 저장된 애플리케이션은, 설계자에 의해 직접 작성되어 저장부(150)에 입력 및 저장된 것일 수도 있고, 또는 유선 또는 무선 통신 네트워크를 통해 접속 가능한 전자 소프트웨어 유통망을 통하여 획득 또는 갱신된 것일 수도 있다.

또한, 탐지 장치(10)는 이와 같은 프로세서가 하나 이상 설치된 적어도 하나의 정보 처리 장치를 이용하여 구현될 수도 있으며, 전자 정보 처리 장치는 데스크톱 컴퓨터, 랩톱 컴퓨터, 서버용 컴퓨터, 스마트 폰, 태블릿 피씨, 스마트 시계, 내비게이션 장치, 휴대용 게임기, 두부 장착형 디스플레이(HMD, Head Mounted Display) 장치, 인공지능 음향 재생 장치, 디지털 텔레비전, 가전기기, 기계 장치 및/또는 전자적으로 정보의 연산/처리 및 이와 관련된 제어가 가능하고 에너지 관리를 위해 특별히 제작된 적어도 하나의 장치를 포함할 수 있다.

사전 학습부(110, 프리 트레이닝부라고 칭할 수도 있음)는 제1 데이터를 이용하여 탐지모델, 즉 BERT 모델을 사전-학습(pre-training)시킬 수 있다. 사전 학습부(110)에 의한 사전-학습의 결과로, BERT 모델의 문맥(context) 이해력을 향상시키고 자연어 처리 프로세스(natural lanuage processing, NLP)를 향상시킬 수 있다. 구체적으로, BERT 모델은 MLM(masked language model)과 다음 문장 예측기(next sentence predictor)를 포함하는 비지도 예측 태스크(unsupervised prediction task)를 이용하여 프리-트레이닝을 수행한다. MLM은 우선 문맥(context)을 이해하고 단어들(words)을 예측한다. 이를 위해, 사전 학습부(110)는 BERT에 입력되는 단어들(word piece) 또는 문장으로부터 일정 확률(예컨대, 15%)로 몇몇 토큰들(tokens)을 랜덤하게 마스크(mask)할 수 있다. 입력은 주위 단어들(surrounding words)의 문맥에 기초하여 마스크된 단어를 예측하기 위해 트랜스포머 구조(Transformer structure)에 포함된다. 이와 같은 과정을 통하여, BERT 모델은 문맥을 보다 정확하게 이해할 수 있다. 다음 문장 예측기는 문장들 간의 관계를 식별하기 위한 것이다. 이러한 태스크는 QA(Question Answering)나 NLI(Natural Language Inference)와 같은 언어 이해 태스크를 위해 중요하다. BERT는 말뭉치(corpus) 내의 두 문장을 오리지널 문장과 결합하는 이진화된 다음 문장 예측 태스크(binarized next sentence prediction task)를 포함한다. 이러한 모델은 BERT의 NLP 태스크에서의 성능을 향상시킬 수 있다. BERT 모델에서 사용된 데이터는 Book Corpus로부터의 800 M 단어들과 Wikipedia로부터의 2500 M 단어들을 포함한다. 위 데이터를 제1 데이터라 칭할 수 있다.

실시예에 따라, 사전 학습부(110)는 제2 데이터를 이용하여 BERT 모델을 사전-학습시킬 수도 있다. 예컨대, 제2 데이터는 CNN(www.cnn.com)과 Daily Mail(www.dailymail.co.uk)의 데이터셋(https://github.com/abisee/cnn-dailymail)을 포함할 수 있다. 제2 데이터를 이용한 추가적인 사전-학습을 통해 BERT 모델의 감지 성능을 향상시킬 수 있다. 제2 데이터는 제목과 본문으로 구성된 뉴스를 의미할 수 있다. 이전의 자연어 처리(NLP) 태스크에서 BERT의 프리-트레이닝은 좋은 성능을 보인다. 그러나, BERT 모델이 사용하는 데이터는 Wikipedia로부터 획득된 일반적인 데이터의 2500 M 단어들과 Book Corpus로부터의 800 M 단어들에 기초한다. 이러한 데이터는 방대한 분야의 정보를 포함하고 있으나, 개별적인 도메인(individual domain)에서의 구체적인 정보는 부족한 상태이다. 이러한 문제점에 착안하여, 본 발명에서는 가짜 뉴스의 탐지 능력을 향상시키기 위해 프리-트레이닝 단계에서 새로운 데이터를 추가하였다. CNN으로부터의 요약 데이터(비특허문헌 33-36 참조)에는 90,000 개의 문서와 380,000 개의 질의(questions)(118,497개의 어휘가 포함됨)가 포함되어 있고, Daily Mail 데이터셋에는 197,000 개의 문서와 879,000 개의 질의(208,045 개의 어휘가 포함됨)가 포함되어 있다. CNN 문서는 CNN 웹사이트로부터 획득된 2007년 4월부터 2015년 4월말까지의 기간 동안의 문서이며, Daily Mail 문서는 Daily Mail 웹사이트로부터 획득된 2010년 6월부터 2015년 4월말까지의 기간 동안의 문서이다.

미세 조정부(120, 파인 튜닝부라고 칭할 수도 있음)는 BERT 모델을 미세-조정(Fine-tuning)함으로써 탐지 모델을 생성할 수 있다. 미세-조정 단계에서는 FNC-1(Fake news challenge stage 1) 데이터를 사용할 수 있다. 여기서, 학습 데이터는 제목(headline)과 본문(body text)의 쌍으로 구성되어 있으며, 각 제목-본문 쌍의 분류 라벨(class label)을 포함할 수 있다. 여기서, 분류 라벨이라 함은 제목-본문 쌍으로 이루어진 데이터의 분류로서, 제1 분류 내지 제4 분류를 포함할 수 있다. 즉, 학습 데이터 또는 제목-본문 쌍으로 이루어진 데이터는 제목-본문 쌍으로 이루어진 데이터의 분류 정보를 포함할 수 있다. 예컨대, 제1 분류 내지 제4 분류는 일치(agree), 비일치(disagree), 논의(discuss), 무관(unrelated)일 수 있다. '일치'는 제목과 본문의 내용이 일치함을 의미하고, '비일치'는 제목과 본문의 내용이 일치하지 않음을 의미하고, '논의'는 제목과 본문의 내용에 관하여 논의가 필요함을 의미하고, '무관'은 제목과 본문의 내용이 관련없음을 의미할 수 있다. 여기서, '비일치'와 '무관'으로 분류된 뉴스가 가짜 뉴스를 의미할 수 있다.

BERT 모델에서, 뉴스를 4개의 그룹으로 분류하기 위해 WCE(Weighted Cross Entropy, 가중된 크로스 엔트로피 또는 가중치가 적용된 크로스 엔트로피)가 사용되었다. WCE에 관하여는 비특허문헌 38 내지 40이 참조될 수 있다.

테스트부(130)는 테스트 데이터를 이용하여 학습된 탐지 모델을 테스트할 수 있다. 여기서, 테스트 데이터는 제목과 본문의 쌍으로 구성되어 있으며, 탐지 모델을 평가하기 위해 분류 라벨을 포함하지 않는다. 학습 데이터 및 테스트 데이터로 총 2587개의 제목(headlines)과 2587개의 본문(body texts)가 사용되었으며, 데이터는 FNC-1 github(htttps://github.com/FakeNewsChallenge/fnc-1)에서 획득될 수 있다.

분류부(140)는 제목과 본문으로 구성된 분류 대상 뉴스를 입력받고, 생성된 분류 모델에 분류 대상 뉴스를 입력함으로써 분류 대상 뉴스를 분류할 수 있다. 즉, 분류부(140)는 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단할 수 있다. 예컨대, 분류 대상 뉴스가 '비동의' 또는 '무관'으로 분류된 경우, 분류부(140)는 분류 대상 뉴스를 가짜 뉴스로 판단할 수 있다.

저장부(140)에는 탐지 모델을 생성하기 위해 사용하는 데이터, 탐지 모델의 생성 중에 생성되는 데이터, 탐지 모델을 테스트하기 위한 데이터, 생성된 탐지 모델, 분류 대상 뉴스, 분류의 결과 등이 저장될 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시 예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 좋ㅂ하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

10 : 가짜 뉴스 분류 장치
110 : 사전 학습부
120 : 미세 조정부
130 : 테스트부
140 : 분류부
150 : 저장부

Claims

복수의 단어들을 포함하는 제1 데이터 및 제목(headline)과 본문(body text)으로 구성된 뉴스들을 포함하는 제2 데이터를 이용하여 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 사전-학습(pre-training)시키는 사전 학습부;
각각이 제목, 본문, 및 분류 정보를 포함하는 뉴스들을 포함하는 학습 데이터를 이용하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부;
상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부; 및
테스트 데이터를 이용하여 상기 탐지 모델를 테스트하는 테스트부를 포함하고,
상기 분류 정보는 상기 학습 데이터에 포함된 뉴스들 중에서 대응하는 뉴스의 분류에 대한 정보이고,
상기 분류 정보는 제1 분류, 제2 분류, 제3 분류 및 제4 분류 중 어느 하나이고,
상기 제1 분류는 제목과 본문의 내용이 일치하는 뉴스에 대한 분류이고,
상기 제2 분류는 제목과 본문의 내용이 일치하지 않는 뉴스에 대한 분류이고,
상기 제3 분류는 제목과 본문의 내용에 대한 논의가 필요하다고 판단되는 뉴스에 대한 분류이고,
상기 제4 분류는 제목과 본문의 내용이 무관한 뉴스에 대한 분류인,
가짜 뉴스 분류 장치.
삭제
삭제
제1항에 있어서,
상기 분류 대상 뉴스는 제목과 본문으로 구성되고,
상기 분류부는 상기 분류 대상 뉴스가 제2 분류 또는 제4 분류로 분류되는 경우에 상기 분류 대상 뉴스를 가짜 뉴스로 결정하는,
가짜 뉴스 분류 장치.