KR102393116B1 - Content information extraction and classification system for automatic narrative generation - Google Patents

Content information extraction and classification system for automatic narrative generation Download PDF

Info

Publication number
KR102393116B1
KR102393116B1 KR1020200053234A KR20200053234A KR102393116B1 KR 102393116 B1 KR102393116 B1 KR 102393116B1 KR 1020200053234 A KR1020200053234 A KR 1020200053234A KR 20200053234 A KR20200053234 A KR 20200053234A KR 102393116 B1 KR102393116 B1 KR 102393116B1
Authority
KR
South Korea
Prior art keywords
information
content
person
extracted
extraction unit
Prior art date
Application number
KR1020200053234A
Other languages
Korean (ko)
Other versions
KR20210135379A (en
Inventor
장준도
김상원
이종영
김형주
조은진
김아영
정다인
오수연
전형연
Original Assignee
인하대학교 산학협력단
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단, 건국대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200053234A priority Critical patent/KR102393116B1/en
Publication of KR20210135379A publication Critical patent/KR20210135379A/en
Application granted granted Critical
Publication of KR102393116B1 publication Critical patent/KR102393116B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인물, 사물 또는 음악을 포함하는 영상, 음성 또는 텍스트 형태의 콘텐츠를 입력받는 수신부; 수신된 상기 콘텐츠로부터 영상 정보, 음성 정보, 언어 정보를 추출하고 분류하여 저장하는 데이터베이스; 및 상기 영상 정보, 상기 음성 정보 또는 상기 언어 정보를 상기 콘텐츠의 종류별로 분류하는 분류부를 포함하며, 상기 데이터베이스는, 수신된 상기 콘텐츠의 영상 정보를 추출하는 영상 정보 추출부; 수신된 상기 콘텐츠의 음성 정보를 추출하는 음성 정보 추출부; 및 수신된 상기 콘텐츠의 텍스트로부터 언어 정보를 추출하는 언어 정보 추출부를 포함하여, 상기 콘텐츠의 상황 또는 종류에 따른 데이터를 추출하고 분류하여 저장할 수 있는 것을 특징으로 한다. The present invention provides a receiver for receiving content in the form of images, voices, or texts including people, objects, or music; a database for extracting, classifying, and storing image information, audio information, and language information from the received content; and a classification unit for classifying the image information, the audio information, or the language information by type of the content, wherein the database includes: an image information extracting unit for extracting the received image information of the content; a voice information extraction unit for extracting the received voice information of the content; and a language information extracting unit for extracting language information from the received text of the content, to extract, classify, and store data according to a situation or type of the content.

Description

서사 자동생성을 위한 콘텐츠 정보 추출 및 분류 시스템{CONTENT INFORMATION EXTRACTION AND CLASSIFICATION SYSTEM FOR AUTOMATIC NARRATIVE GENERATION}Content information extraction and classification system for automatic narrative generation

본 발명은 입력 데이터인 콘텐츠에서 영상, 음성 또는 언어 데이터 등을 추출할 수 있는 시스템에 관한 것이다.The present invention relates to a system capable of extracting video, audio, or language data from content that is input data.

서사(내러티브; narrative)는 시간과 공간에서 일어나는, 원인과 결과로 연결된 일련의 사건으로서, 모든 매체의 내러티브에 있어 인과관계, 시간 그리고 공간처럼 의미를 파악하게 하는 요소들은 중요한 정보가 된다. 서사는 하나의 상황으로부터 시작되어 그 후 원인과 결과의 양식을 따라 일련의 변화들이 일어나게 된다. 즉, 사건은 인과관계 또는 시간적인 질서에 따라 배치되어야 한다. Narrative is a series of events that occur in time and space and are connected with cause and effect. In narratives of all media, elements that allow us to grasp meaning such as causation, time, and space become important information. A narrative begins with a situation, and then a series of changes occur according to the mode of cause and effect. That is, events must be arranged according to causality or temporal order.

이를 최근에는 인공지능 등을 이용하여 언어 정보, 문장 또는 글을 생성하는 단계까지 발전하였다. 특히 신문기사를 작성함에 있어서 기존의 데이터를 바탕으로 기존 문맥에 어울리는 신문기사를 생성해내는 로봇의 알고리즘을 이용하는 저널리즘이 광범위하게 사용되고 있다. 그러한, 현재의 로봇 저널리즘은 스포츠, 금융 등 수치화된 데이터가 빠르게 업데이트되는 특징을 가지는 특정 분야에서만 독자의 편의를 제공해주는 수준으로 문맥이 추가되는 역할로 사용되고 있다. 다시 말하면, 이러한 기술이 수준 높은 콘텐츠를 전달하고자 하는 목적으로 사용되지 않는다.In recent years, this has progressed to the stage of generating language information, sentences, or texts using artificial intelligence or the like. In particular, journalism using an algorithm of a robot that generates newspaper articles suitable for existing contexts based on existing data is widely used in writing newspaper articles. As such, the current robot journalism is used as a role in which context is added to a level that provides the reader's convenience only in specific fields, such as sports and finance, where numerical data is rapidly updated. In other words, these technologies are not used for the purpose of delivering high-quality content.

OpenAI의 GPT-2 인공지능 기계학습 모델은 정형화 된 데이터가 아닌 대규모 데이터를 기반으로 한 기계학습으로 범용 언어 생성을 목표로 하고 있다. 이 학습 모델은 문단 단위 이상의 작문에서도 인간이 읽기에 위화감이 없는 수준의 성과물을 만들어낸 바는 있다. 그러나, 방대한 데이터와 수억개의 파라미터를 근거로 하여 연산을 수행함에도 불구하고 수 페이지 이상의 서사적 콘텐츠를 완결된 형태로 만들어내는 데에는 아직 이르지 못하고 있는 실정이다. OpenAI's GPT-2 artificial intelligence machine learning model aims to create a general-purpose language with machine learning based on large-scale data rather than standardized data. This learning model has produced achievements at a level where there is no sense of incongruity in human reading even in writing more than paragraph units. However, in spite of performing calculations based on massive data and hundreds of millions of parameters, it has not yet reached the ability to create narrative contents of several pages or more in a complete form.

한편, 본 출원인은 서사 콘텐츠의 구성에서 영향력이 큰 요소들을 변수로 제시하여 창작물의 기계적 모방에서 연산량을 감소시키고 연산 절차를 감소시키는 방법에 대한 추가적인 연구 개발을 진행하였다. 이에, 본 발명을 이용하여 서사 콘텐츠의 기계적 모방이 서사 전체의 맥락 수준에서 타당성을 느낄 수 있는 수준으로 적용될 수 있음을 확인하게 되었다.On the other hand, the present applicant has conducted additional research and development on a method of reducing the amount of computation and reducing the computational procedure in mechanical imitation of creations by presenting factors with a large influence in the composition of narrative content as variables. Accordingly, it was confirmed that the mechanical imitation of narrative content using the present invention can be applied at a level that can feel validity in the context level of the entire narrative.

한국등록특허 제10-2073979호Korean Patent No. 10-2073979

본 발명은 서사 자동생성을 위한 콘텐츠 정보 추출 및 분류 시스템으로서, 콘텐츠를 입력받아 해당 콘텐츠에 관한 음성, 영상 또는 언어 정보를 추출하고 이를 콘텐츠 별로 분류하는 시스템을 제공하고자 한다. 본 발명은 서사 자동 생성을 위해 필요한 데이터 수집의 기준을 설정하고자 하는 발명으로서, 문장이나 문단 수준을 넘어선 서사 단위의 의미 있는 데이터를 생성하기 위한 기준을 제시한다. An object of the present invention is to provide a system for extracting and classifying content information for automatic narrative creation, receiving content, extracting audio, video or language information about the content, and classifying it by content. The present invention is an invention intended to set a standard for data collection necessary for automatic narrative generation, and provides a standard for generating meaningful data in a narrative unit that goes beyond the level of sentences or paragraphs.

본 발명이 해결하려는 과제들은 앞에서 언급한 과제들로 제한되지 않는다. 본 발명의 다른 과제 및 장점들은 아래 설명에 의해 더욱 분명하게 이해될 것이다.The problems to be solved by the present invention are not limited to the aforementioned problems. Other objects and advantages of the present invention will be more clearly understood by the following description.

상기 목적을 달성하기 위하여 본 발명은, 인물, 사물 또는 음악을 포함하는 영상, 음성 또는 텍스트 형태의 콘텐츠를 입력받는 수신부; 수신된 상기 콘텐츠로부터 영상 정보, 음성 정보 또는 언어 정보를 추출하고 분류하여 저장하는 데이터베이스; 및 상기 영상 정보, 상기 음성 정보 또는 상기 언어 정보를 상기 콘텐츠의 종류별로 분류하는 분류부를 포함하며, 상기 데이터베이스는, 수신된 상기 콘텐츠의 상기 영상 정보를 추출하는 영상 정보 추출부; 수신된 상기 콘텐츠의 상기 음성 정보를 추출하는 음성 정보 추출부; 및 수신된 상기 콘텐츠의 텍스트로부터 상기 언어 정보를 추출하는 언어 정보 추출부를 포함하는 것을 특징으로 한다.In order to achieve the above object, the present invention provides a receiving unit for receiving content in the form of images, voices, or texts including people, objects, or music; a database for extracting, classifying, and storing image information, audio information, or language information from the received content; and a classification unit for classifying the image information, the audio information, or the language information by type of the content, wherein the database includes: an image information extracting unit for extracting the image information of the received content; a voice information extraction unit for extracting the voice information of the received content; and a language information extraction unit for extracting the language information from the received text of the content.

바람직하게, 상기 영상 정보 추출부는, 상기 콘텐츠에서 추출하는 상기 영상 정보로서 상기 콘텐츠에 포함된 인물의 동작 정보 또는 사물 정보를 추출하여 인식할 수 있다.Preferably, the image information extractor may extract and recognize motion information or object information of a person included in the content as the image information extracted from the content.

바람직하게, 상기 음성 정보 추출부는, 상기 콘텐츠에서 추출하는 상기 음성 정보로서 상기 콘텐츠에 포함된 인물의 발화 정보 또는 음악 정보를 추출하여 인식할 수 있다.Preferably, the voice information extractor may extract and recognize speech information or music information of a person included in the content as the voice information extracted from the content.

바람직하게, 상기 언어 정보 추출부는, 상기 콘텐츠에서 추출하는 상기 언어 정보로서 상기 음성 정보 추출부에서 추출한 인물의 상기 발화 정보 또는 상기 콘텐츠에 포함된 텍스트를 추출하여 인식할 수 있다.Preferably, the language information extraction unit may extract and recognize the utterance information of a person or text included in the contents extracted by the voice information extraction unit as the language information extracted from the content.

바람직하게, 상기 언어 정보 추출부는, Speech To Text 또는 Lip Read 방법을 이용하여 상기 콘텐츠에 포함된 인물의 상기 발화 정보로부터 상기 언어 정보를 추출하여 인식할 수 있다.Preferably, the language information extraction unit may extract and recognize the language information from the utterance information of a person included in the content using a Speech To Text or Lip Read method.

바람직하게, 상기 분류부는, 상기 콘텐츠의 종류로서 상기 콘텐츠에 포함된 인물의 감정의 유형, 인물의 감정 수준, 인물 간의 갈등 유형 또는 인물 간의 갈등의 심화 수준을 기준으로 분류할 수 있다. Preferably, the classification unit may classify as the type of content based on a type of emotion of a person included in the content, a level of emotion of the person, a type of conflict between persons, or a deepening level of conflict between persons.

본 발명에 따르면, 서사 단위의 의미 있는 데이터를 생성하기 위한 기준을 제시함으로써 향후 서사 자동생성 시 활용할 수 있다. 또한, 이러한 기준을 사전에 정의함으로써 언어 생성을 위한 기계학습이 보다 효율적으로 이루어지도록 할 수 있다. 즉, 문단 단위 이상의 의미 있는 언어 생성이 가능한 장점을 갖는다.According to the present invention, by presenting a criterion for generating meaningful data of a narrative unit, it can be utilized for automatic narrative generation in the future. In addition, by defining these criteria in advance, machine learning for language generation can be performed more efficiently. That is, it has the advantage of being able to generate meaningful language beyond paragraph units.

도 1은 본 발명의 실시 예에 따른 콘텐츠 정보 추출 및 분류 시스템의 구성도를 나타낸다.
도 2는 본 발명의 실시 예에 따른 입력 데이터인 영상 서사 저작물로부터 추출되는 음성 정보 및 영상 정보의 유형의 구조도를 나타낸다.
1 is a block diagram of a content information extraction and classification system according to an embodiment of the present invention.
2 is a structural diagram of types of audio information and video information extracted from a video narrative work that is input data according to an embodiment of the present invention.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.Hereinafter, the present invention will be described in detail with reference to the contents described in the accompanying drawings. However, the present invention is not limited or limited by the exemplary embodiments. The same reference numerals provided in the respective drawings indicate members that perform substantially the same functions.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.Objects and effects of the present invention can be naturally understood or made clearer by the following description, and the objects and effects of the present invention are not limited only by the following description. In addition, in describing the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted.

도 1은 본 발명의 실시 예에 따른 콘텐츠 정보 추출 및 분류 시스템(1)의 구성도를 나타낸다. 콘텐츠 정보 추출 및 분류 시스템(1)은 수신부(11), 데이터베이스(13) 및 분류부(15)를 포함할 수 있다.1 shows a configuration diagram of a content information extraction and classification system 1 according to an embodiment of the present invention. The content information extraction and classification system 1 may include a receiving unit 11 , a database 13 , and a classification unit 15 .

수신부(11)는 인물, 사물 또는 음악을 포함하는 영상, 음성 또는 텍스트 형태의 콘텐츠를 입력받을 수 있다.The receiver 11 may receive content in the form of images, voices, or texts including people, objects, or music.

데이터베이스(13)는 수신된 콘텐츠로부터 영상 정보, 음성 정보, 언어 정보를 추출하고 분류하여 저장할 수 있다. 데이터베이스(13)는 영상 정보 추출부(131), 음성 정보 추출부(133) 및 언어 정보 추출부(135)를 포함할 수 있다.The database 13 may extract, classify, and store image information, audio information, and language information from the received content. The database 13 may include an image information extractor 131 , an audio information extractor 133 , and a language information extractor 135 .

영상 정보 추출부(131)는 수신된 콘텐츠의 영상 정보를 추출할 수 있다. 영상 정보 추출부(131)는 콘텐츠에서 추출하는 영상 정보로서 콘텐츠에 포함된 인물의 동작 정보 또는 사물 정보를 추출하여 인식할 수 있다. 영상 정보 추출부(131)에서 추출하는 영상 정보는 입력되는 콘텐츠에 등장하는 인물의 표정, 인물의 움직임에 관한 정보를 포함할 수 있다. 또한, 영상 정보 추출부(131)는 콘텐츠에 등장하는 사물, 소품, 인물의 복장과 해당 영상의 배경 등의 사물적 요소를 인식할 수 있다. The image information extraction unit 131 may extract image information of the received content. The image information extractor 131 may extract and recognize motion information or object information of a person included in the content as image information extracted from the content. The image information extracted by the image information extraction unit 131 may include information about the facial expression of a person appearing in the inputted content, and information about the movement of the person. In addition, the image information extraction unit 131 may recognize object elements such as objects, props, clothes of a person appearing in the content, and the background of the image.

음성 정보 추출부(133)는 수신된 콘텐츠의 음성 정보를 추출할 수 있다. 음성 정보 추출부(133)는 콘텐츠에서 추출하는 음성 정보로서 콘텐츠에 포함된 인물의 발화 정보 또는 음악 정보를 추출하여 인식할 수 있다. 음성 정보 추출부(133)는 입력되는 콘텐츠에 포함된 음악을 Audio Finger Printing을 통해 해당 음악의 아티스트, 곡명, 출시된 연도 등의 정보를 추출 및 분석할 수 있다. 또한, 입력되는 콘텐츠에 포함된 해당 음악의 분위기를 분석할 수 있다. 음의 높낮이, 음의 간격, 리듬 등의 정보를 콘텐츠로부터 추출할 수 있다. The voice information extraction unit 133 may extract voice information of the received content. The voice information extractor 133 may extract and recognize speech information or music information of a person included in the content as voice information extracted from the content. The voice information extraction unit 133 may extract and analyze information such as an artist, a song name, and a release year of the music included in the input content through Audio Finger Printing. In addition, the atmosphere of the corresponding music included in the input content may be analyzed. Information such as pitch, pitch, and rhythm can be extracted from content.

언어 정보 추출부(135)는 수신된 콘텐츠의 텍스트로부터 언어 정보를 추출할 수 있다. 언어 정보 추출부(135)는 콘텐츠에서 추출하는 언어 정보로서 음성 정보 추출부에서 추출한 인물의 발화 정보 또는 콘텐츠에 포함된 텍스트를 추출하여 인식할 수 있다. 언어 정보 추출부(135)는 Speech To Text 또는 Lip Read 방법을 이용하여 콘텐츠에 포함된 인물의 발화 정보로부터 언어 정보를 추출하여 인식할 수 있다.The language information extraction unit 135 may extract language information from the text of the received content. The language information extraction unit 135 may extract and recognize a person's utterance information or text included in the contents extracted by the voice information extraction unit as language information extracted from the content. The language information extraction unit 135 may extract and recognize language information from speech information of a person included in the content by using the Speech To Text or Lip Read method.

분류부(15)는 데이터베이스(13)에 저장된 영상 정보, 음성 정보 또는 언어 정보를 콘텐츠의 종류별로 분류할 수 있으며, 분류된 영상 정보, 음성 정보 또는 언어 정보를 그룹화하여 저장할 수 있다. 분류부(15)는 콘텐츠의 종류로서 콘텐츠에 포함된 인물의 유형, 인물의 감정의 유형, 인물의 심리상태, 인물의 욕구, 인물의 감정 수준, 인물의 행동 의도, 인물 간의 갈등 유형, 인물 간의 갈등 단계 또는 인물 간의 갈등의 심화 수준 등을 기준으로 분류할 수 있다. 분류부(15)는 해당 기준에 따라 데이터베이스(13)에 저장된 영상 정보, 음성 정보, 언어 정보를 그룹화하여 구성할 수 있다. 또한, 분류부(15)는 영상 정보 추출부(131)에서 추출한 인물의 동작 정보를 인물의 행동에 따라 키워드 화하여 키워드별로 분류할 수 있다. 분류부(15)는 영상 정보 추출부(131)에서 추출한 사물 또는 배경 정보를 인물의 행동, 인물의 감정 또는 사물이 가지는 의미에 따라 키워드 화하여 키워드별로 분류할 수 있다. The classification unit 15 may classify the image information, the audio information, or the language information stored in the database 13 by type of content, and store the classified image information, the audio information, or the language information in groups. The classification unit 15 is a type of content included in the content, including the type of person included in the content, the type of person's emotion, the person's psychological state, the person's desire, the person's emotional level, the person's behavioral intention, the type of conflict between the characters, and the person It can be classified based on the level of conflict or the level of intensification of conflict between characters. The classification unit 15 may group and configure image information, audio information, and language information stored in the database 13 according to a corresponding criterion. In addition, the classification unit 15 may classify the motion information of the person extracted by the image information extraction unit 131 into keywords according to the person's behavior and classify them by keyword. The classification unit 15 may classify the object or background information extracted by the image information extraction unit 131 into keywords according to the behavior of the person, the emotion of the person, or the meaning of the object, and classify the object or background information by keyword.

도 2는 본 발명의 실시 예에 따른 입력 데이터인 영상 서사 저작물로부터 추출되는 음성 정보 및 영상 정보의 유형의 구조도를 나타낸다. 입력 데이터로서 표현되는 영상 서사 저작물은 유형별로 분류 처리가 될 원본 콘텐츠를 의미한다. 영상 서사 저작물은 영상과 음성을 모두 가진 비디오 콘텐츠일 수 있고, 영상이 없이 음성만으로 이루어진 오디오 콘텐츠 또는 멀티미디어 정보가 없는 텍스트 콘텐츠인 경우를 포함한다. 콘텐츠 정보 추출 및 분류 시스템(1)은 영상 서사저작물을 입력받은 뒤, 음성 정보와 영상 정보로 분류하여 추출한다. 2 is a structural diagram of types of audio information and video information extracted from a video narrative work that is input data according to an embodiment of the present invention. The video narrative work expressed as input data means the original content to be classified and processed by type. A video narrative work may be video content having both images and audio, and includes audio content consisting of only audio without an image or text content without multimedia information. The content information extraction and classification system 1 receives a video narrative work, and then classifies it into audio information and video information and extracts it.

음성 정보 중 언어 정보에 대해서는 Speech To Text 또는 Lip Read 방법을 이용하여 영상 서사저작물 내의 단위 시간 또는 단위 분량을 기준으로 해당 콘텐츠 내에서 이루어진 인물의 발화에 관한 언어 정보(어휘, 구(句), 문장, 단락 등)를 추출할 수 있다. 음악 정보에 대해서는 Audio Finger Print, Foxonomy Data, Other Musical Components등을 이용하여 영상 서사저작물 내의 단위 시간 또는 단위 분량에 대한 정보를 추출할 수 있다. 단위 시간 또는 단위 분량에 대해 해당 콘텐츠 내에 삽입된 음악 콘텐츠를 대상으로 배경 음악 등의 음악의 감정적 정보를 추출할 수 있다. 이렇게 음악을 통해 추출한 감정적 정보는 영상 정보 추출부(131)에서 추출한 인물의 표정 또는 행동 정보, 음성 정보 추출부(133)에서 추출한 인물의 발화 내용, 목소리의 높낮이 등의 정보와 연관되어 함께 분류 및 분석될 수 있다.For linguistic information among audio information, language information (vocabulary, phrase, sentence , paragraphs, etc.) can be extracted. For music information, information on unit time or unit amount in a video narrative work can be extracted using Audio Finger Print, Foxonomy Data, Other Musical Components, etc. For a unit time or a unit amount, emotional information of music, such as background music, may be extracted from the music content inserted in the corresponding content. The emotional information extracted through music in this way is related to information such as facial expression or behavior information extracted by the image information extraction unit 131, the person's utterances extracted by the voice information extraction unit 133, the pitch of the voice, etc. can be analyzed.

영상 정보에 대해서는 영상 서사저작물의 영상에 등장하는 인물의 동작(변화)을 인식하거나 사물을 인식할 수 있다. 영상 정보 중 동작을 인식함에 있어서, Motion detection 또는 Facial Detection 방법을 이용할 수 있다. 인물의 행동과 표정에 관한 정보의 추출은 이후 인물의 감정분석에 사용될 수 있다. 사물은 인물 주변에 소품으로 놓여져 인물과 함께 또는 사물 단독으로 영상을 구성하거나, 영상을 구성하는 배경으로서 인물과 함께 또는 배경 단독으로 영상을 구성할 수 있다. 따라서, 영상 정보 중 사물을 인식함에 있어서, 소품 또는 배경인 사물 정보를 추출하여 인식할 수 있다. 영상 서사저작물에서 추출된 각 음성 정보와 영상 정보는 데이터베이스에 저장될 수 있다.For image information, it is possible to recognize the movement (change) of a person appearing in the image of a video narrative work or recognize an object. In recognizing a motion among image information, a motion detection method or a facial detection method may be used. The extraction of information on the character's behavior and facial expression can be used for later emotion analysis of the character. An object may be placed around a person as a prop to compose an image with a person or an object alone, or an image may be composed with a person or a background alone as a background constituting the image. Accordingly, in recognizing an object among image information, object information that is a prop or a background may be extracted and recognized. Each audio information and image information extracted from a video narrative work may be stored in a database.

이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다. Although the present invention has been described in detail through representative embodiments above, those of ordinary skill in the art to which the present invention pertains will understand that various modifications are possible within the limits without departing from the scope of the present invention with respect to the above-described embodiments. will be. Therefore, the scope of the present invention should not be limited to the described embodiments, but should be defined by all changes or modifications derived from the claims and equivalent concepts as well as the claims to be described later.

1: 콘텐츠 정보 추출 및 분류 시스템
11: 수신부
13: 데이터베이스
131: 영상 정보 추출부
133: 음성 정보 추출부
135: 언어 정보 추출부
15: 분류부
1: Content information extraction and classification system
11: Receiver
13: Database
131: image information extraction unit
133: voice information extraction unit
135: language information extraction unit
15: classification

Claims (6)

인물, 사물 또는 음악을 포함하는 영상, 음성 또는 텍스트 형태의 콘텐츠를 입력받는 수신부;
수신된 상기 콘텐츠로부터 영상 정보, 음성 정보 또는 언어 정보를 추출하고 분류하여 저장하는 데이터베이스; 및
상기 영상 정보, 상기 음성 정보 및 상기 언어 정보를 상기 콘텐츠의 종류별로 분류하는 분류부를 포함하며,
상기 데이터베이스는,
수신된 상기 콘텐츠의 상기 영상 정보를 추출하는 영상 정보 추출부;
수신된 상기 콘텐츠의 상기 음성 정보를 추출하는 음성 정보 추출부; 및
수신된 상기 콘텐츠의 텍스트로부터 상기 언어 정보를 추출하는 언어 정보 추출부를 포함하고,
상기 영상 정보 추출부는,
상기 콘텐츠에서 추출하는 상기 영상 정보로서 상기 콘텐츠에 포함된 인물의 동작 정보 또는 사물 정보를 추출하여 인식하며,
상기 음성 정보 추출부는,
상기 콘텐츠에서 추출하는 상기 음성 정보로서 상기 콘텐츠에 포함된 인물의 발화 정보 또는 음악 정보를 추출하여 인식하고,
상기 언어 정보 추출부는,
상기 콘텐츠에서 추출하는 상기 언어 정보로서 상기 음성 정보 추출부에서 추출한 인물의 상기 발화 정보 또는 상기 콘텐츠에 포함된 텍스트를 추출하여 인식하며, 상기 언어 정보는 Speech To Text 또는 Lip Read 방법을 통해 상기 콘텐츠에 포함된 인물의 상기 발화 정보로부터 추출되고,
상기 분류부는,
상기 콘텐츠에 포함된 인물의 감정의 유형, 인물의 감정 수준, 인물 간의 갈등 유형 또는 인물 간의 갈등의 심화 수준을 기준으로 상기 콘텐츠의 종류를 분류하며,
상기 영상 정보 추출부에서 추출된 인물의 행동에 따라 키워드화하여 키워드별로 분류하고, 상기 영상 정보 추출부에서 추출된 사물 또는 배경 정보를 인물의 행동, 인물의 감정 또는 사물이 가지는 의미에 따라 키워드 화하여 키워드별로 분류하는 것을 특징으로 하는 콘텐츠 정보 추출 및 분류 시스템.
a receiver for receiving content in the form of images, voices, or texts including people, objects, or music;
a database for extracting, classifying, and storing image information, audio information, or language information from the received content; and
and a classification unit for classifying the image information, the audio information, and the language information by type of the content,
The database is
an image information extraction unit for extracting the image information of the received content;
a voice information extraction unit for extracting the voice information of the received content; and
and a language information extraction unit for extracting the language information from the received text of the content,
The image information extraction unit,
As the image information extracted from the content, motion information or object information of a person included in the content is extracted and recognized,
The voice information extraction unit,
Extracting and recognizing speech information or music information of a person included in the content as the voice information extracted from the content,
The language information extraction unit,
As the language information extracted from the content, the speech information of a person extracted by the voice information extraction unit or text included in the content is extracted and recognized, and the language information is added to the content through the Speech To Text or Lip Read method. Extracted from the utterance information of the included person,
The classification unit,
Classifying the type of content based on the type of emotion of the person included in the content, the emotional level of the person, the type of conflict between the characters, or the deepening level of the conflict between the characters,
According to the behavior of the person extracted by the image information extraction unit, keywords are classified according to keywords, and the object or background information extracted from the image information extraction unit is converted into keywords according to the behavior of the person, the emotion of the person, or the meaning of the object. Content information extraction and classification system, characterized in that it is classified by keyword.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020200053234A 2020-05-04 2020-05-04 Content information extraction and classification system for automatic narrative generation KR102393116B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200053234A KR102393116B1 (en) 2020-05-04 2020-05-04 Content information extraction and classification system for automatic narrative generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200053234A KR102393116B1 (en) 2020-05-04 2020-05-04 Content information extraction and classification system for automatic narrative generation

Publications (2)

Publication Number Publication Date
KR20210135379A KR20210135379A (en) 2021-11-15
KR102393116B1 true KR102393116B1 (en) 2022-05-03

Family

ID=78502859

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200053234A KR102393116B1 (en) 2020-05-04 2020-05-04 Content information extraction and classification system for automatic narrative generation

Country Status (1)

Country Link
KR (1) KR102393116B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073979B1 (en) 2019-05-13 2020-02-05 윤준호 Server and method for providing feeling analysis based emotional diary service using artificial intelligence based on speech signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement

Also Published As

Publication number Publication date
KR20210135379A (en) 2021-11-15

Similar Documents

Publication Publication Date Title
JP3848319B2 (en) Information processing method and information processing apparatus
Song et al. A gesture-to-emotional speech conversion by combining gesture recognition and facial expression recognition
KR20200105057A (en) Apparatus and method for extracting inquiry features for alalysis of inquery sentence
Lipping et al. Clotho-aqa: A crowdsourced dataset for audio question answering
US11727915B1 (en) Method and terminal for generating simulated voice of virtual teacher
Shawar et al. An Arabic chatbot giving answers from the Qur'an
Goel et al. Cross lingual cross corpus speech emotion recognition
Treviso et al. Evaluating word embeddings for sentence boundary detection in speech transcripts
CN112185361A (en) Speech recognition model training method and device, electronic equipment and storage medium
CN117851871A (en) Multi-mode data identification method for overseas Internet social network site
CN116092472A (en) Speech synthesis method and synthesis system
Koudounas et al. Italic: An italian intent classification dataset
CN114996506A (en) Corpus generation method and device, electronic equipment and computer-readable storage medium
KR102393116B1 (en) Content information extraction and classification system for automatic narrative generation
Saunders et al. Towards using prosody to scaffold lexical meaning in robots
KR102555698B1 (en) Automatic synchronization between content video and subtitle using artificial intelligence
Noriy et al. Clara: Multilingual contrastive learning for audio representation acquisition
CN116129868A (en) Method and system for generating structured photo
Joshi Text image extraction and summarization
CN109960782A (en) A kind of Tibetan language segmenting method and device based on deep neural network
Heracleous et al. Integrating language and emotion features for multilingual speech emotion recognition
Labied et al. Moroccan dialect “Darija” automatic speech recognition: a survey
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
JP6998017B2 (en) Speech synthesis data generator, speech synthesis data generation method and speech synthesis system
Thu et al. Recovering capitalization for automatic speech recognition of vietnamese using transformer and chunk merging

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant