KR102618683B1 - Apparatus for conversing style of background using analysis song lyrics and method thereof - Google Patents

Apparatus for conversing style of background using analysis song lyrics and method thereof Download PDF

Info

Publication number
KR102618683B1
KR102618683B1 KR1020210125844A KR20210125844A KR102618683B1 KR 102618683 B1 KR102618683 B1 KR 102618683B1 KR 1020210125844 A KR1020210125844 A KR 1020210125844A KR 20210125844 A KR20210125844 A KR 20210125844A KR 102618683 B1 KR102618683 B1 KR 102618683B1
Authority
KR
South Korea
Prior art keywords
emotional
image
background
information
style
Prior art date
Application number
KR1020210125844A
Other languages
Korean (ko)
Other versions
KR20230043294A (en
Inventor
성연식
윤혜원
이서우
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020210125844A priority Critical patent/KR102618683B1/en
Publication of KR20230043294A publication Critical patent/KR20230043294A/en
Application granted granted Critical
Publication of KR102618683B1 publication Critical patent/KR102618683B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법에 관한 것이다. 본 발명에 따르면, 노래 가사 분석을 이용한 배경 스타일 변환 장치의 배경 스타일 변환 방법에 있어서, 서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장하는 단계, 재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 가사로부터 복수의 구절 및 후렴구를 추출하는 단계, 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출하여 추출된 하나 이상의 감정 단어를 기 설정된 감정 상태로 분류하는 단계, 감정 상태별로 분류된 감정 단어를 이용하여 해당하는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 산출하는 단계, 상기 감정 상태의 감정 정보를 기 저장된 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 단계, 그리고 기본 배경 이미지와 상기 선택된 감정 이미지를 각각의 구절 및 후렴구별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 가사와 관련된 감정에 대응하는 무대 배경 이미지의 스타일을 관객 또는 영상 시청자들에게 제공함으로써, 가사에 포함하고 감정을 극대화하여 시각적으로 관객 또는 영상 시청자에게 제공할 수 있다.
The present invention relates to a background style conversion device and method using song lyric analysis. According to the present invention, in a background style conversion method of a background style conversion device using song lyric analysis, the steps include storing a plurality of emotional images having emotional information about different emotions, lyrics of a song to be played, and a basic background image. Upon receiving input, a step of extracting a plurality of phrases and refrains from the lyrics, a step of extracting an emotion word related to one or more emotions from each of the plurality of phrases and a refrain and classifying the extracted one or more emotion words into a preset emotional state, emotion Calculating emotional information of the emotional state for each corresponding phrase and refrain using emotional words classified by state, comparing the emotional information of the emotional state with the emotional information of the previously stored emotional image to calculate the similarity, and calculating the similarity. It includes a step of selecting the largest emotional image, and applying the basic background image and the selected emotional image to a learning model for each phrase and chorus to sequentially output the basic background image whose style has been converted.
In this way, according to the present invention, by providing the audience or video viewers with a style of stage background image corresponding to the emotions related to the lyrics, it is possible to visually provide the audience or video viewers by including them in the lyrics and maximizing the emotions.

Description

노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법{APPARATUS FOR CONVERSING STYLE OF BACKGROUND USING ANALYSIS SONG LYRICS AND METHOD THEREOF}Background style conversion device and method using song lyric analysis {APPARATUS FOR CONVERSING STYLE OF BACKGROUND USING ANALYSIS SONG LYRICS AND METHOD THEREOF}

본 발명은 노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 노래 가사에 따라 해당 노래 가사의 감정 단어를 분석하여 노래 가사에 적합한 배경 이미지의 스타일로 변환시키는 노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법에 관한 것이다. The present invention relates to a background style conversion device and method using song lyrics analysis, and more specifically, to a song lyrics analysis that analyzes emotional words in the song lyrics according to the song lyrics and converts them into a style of background image suitable for the song lyrics. It relates to a background style conversion device and method using .

최근, 딥러닝은 컴퓨터 기술의 발전으로 인간 고유의 능력인 창의성을 필요로 하는 예술 분야까지 확장하였으며, 예술 분야는 다양한 산업 분야와 접목하고 있다.Recently, with the development of computer technology, deep learning has expanded into the field of art, which requires creativity, a unique human ability, and the field of art is being combined with various industrial fields.

특히, 예술 분야 중 무대 예술에서 인공지능을 이용하여 시각적 이미지를 창출하고 있으며, 무대 위의 가수가 춤을 추고 노래를 부를 경우에 무대 효과와 시각적 이미지가 결합하여 다양한 무대 분위기를 관객에게 제공할 수 있다. In particular, in the field of art, visual images are created using artificial intelligence in stage art, and when a singer on stage dances and sings, stage effects and visual images can be combined to provide the audience with a variety of stage atmospheres. there is.

여기서, 무대 효과는 조명, 음악, 연기 및 무대 배경과 같은 다양한 종류로 무대 분위기를 결정하며, 이는 관객에게 노래의 감정을 시각적으로 전달해주는 중요한 요소이다.Here, stage effects determine the stage atmosphere through various types such as lighting, music, acting, and stage background, which are important elements that visually convey the emotion of the song to the audience.

종래의 미디어 공연은 기획 단계에서 공연에서 사용될 무대 배경 이미지를 전문 무대 디자이너가 직접 설계하였으나, 최근에는 대형 LED 화면 또는 프로젝터를 통해 이미지로 표현하는 미디어 공연으로 변화되고 있다. In conventional media performances, professional stage designers directly designed the stage background image to be used in the performance during the planning stage, but recently, it is changing to a media performance that expresses the image through a large LED screen or projector.

이와 같이, 인공지능이 사람을 대신하여 무대 배경 이미지를 설계할 수 있도록 무대 배경 이미지에 관한 연구가 진행되고 있으며, 무대 배경 이미지 추천하도록 인공지능을 이용하여 전문 무대 디자이너 없이도 노래 스타일에 따라 무대 배경 이미지를 자동으로 구성되는 기술을 요구되고 있다. In this way, research on stage background images is underway so that artificial intelligence can design stage background images on behalf of people, and artificial intelligence is used to recommend stage background images according to song style without a professional stage designer. Technology that automatically configures is being demanded.

다만, 종래의 인공지능을 이용한 무대 배경 이미지 추천은 노래 가사의 감정과 상관없이 일방적인 무대 배경 이미지를 제공하는 것으로, 노래의 감정을 시각적으로 전달하는데 한계가 있다는 문제점이 있다. However, the conventional stage background image recommendation using artificial intelligence provides a one-sided stage background image regardless of the emotion of the song lyrics, which has a problem in that it has limitations in visually conveying the emotion of the song.

본 발명의 배경이 되는 기술은 대한민국 등록특허 제10-2216656호 (2021.02.17 공고)에 개시되어 있다.The technology behind the present invention is disclosed in Republic of Korea Patent No. 10-2216656 (announced on February 17, 2021).

본 발명이 이루고자 하는 기술적 과제는 노래 가사에 따라 해당 노래 가사의 감정 단어를 분석하여 노래 가사에 적합한 배경 이미지의 스타일로 변환시키는 노래 가사 분석을 이용한 배경 스타일 변환 장치 및 그 방법을 제공하는 것이다. The technical problem to be achieved by the present invention is to provide a background style conversion device and method using song lyrics analysis that analyzes emotional words in the song lyrics and converts them into a style of a background image suitable for the song lyrics.

이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따르면, 노래 가사 분석을 이용한 배경 스타일 변환 장치의 배경 스타일 변환 방법에 있어서, 서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장하는 단계, 재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 상기 가사로부터 복수의 구절 및 후렴구를 추출하는 단계, 상기 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출하여 상기 추출된 하나 이상의 감정 단어를 기 설정된 감정 상태로 분류하는 단계, 감정 상태별로 분류된 감정 단어를 이용하여 해당되는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 추출하는 단계, 상기 감정 상태의 감정 정보를 기 저장된 복수의 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 단계, 그리고 상기 기본 배경 이미지와 상기 선택된 감정 이미지를 각각의 구절 및 후렴구별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 단계를 포함한다. According to an embodiment of the present invention for achieving this technical problem, a background style conversion method of a background style conversion device using song lyric analysis includes the steps of storing a plurality of emotional images having emotional information about different emotions, and reproducing them. Upon receiving the lyrics and basic background image of the desired song, extracting a plurality of phrases and refrains from the lyrics, extracting an emotion word related to one or more emotions from each of the plurality of phrases and refrains, and extracting the extracted one or more emotions. Classifying words into preset emotional states, extracting emotional information of the emotional state for each of the corresponding phrases and refrains using emotional words classified by emotional state, and storing the emotional information of the emotional state in a plurality of pre-stored emotional states. Comparing the emotional information with the emotional information of the emotional image to calculate the similarity, selecting the emotional image with the highest similarity, and applying the basic background image and the selected emotional image to a learning model for each verse and chorus to convert the style. It includes sequentially outputting basic background images.

상기 복수의 감정 상태는, 기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움 중에서 적어도 하나를 포함할 수 있다. The plurality of emotional states may include at least one of anticipation, joy, trust, surprise, anger, disgust, sadness, and fear.

상기 복수의 구절 및 후렴구를 추출하는 단계는, 상기 노래의 가사에서 반복이 없는 문장을 구절로 추출하고, 반복되는 문장을 후렴구로 추출할 수 있다. In the step of extracting the plurality of phrases and refrains, sentences without repetition may be extracted from the lyrics of the song as phrases, and repeated sentences may be extracted as refrains.

상기 감정 상태의 감정 정보를 산출하는 단계는, 상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류된 횟수를 카운팅하여 감정 정보를 산출할 수 있다. In the step of calculating the emotional information of the emotional state, the emotional information may be calculated by counting the number of times the emotional word is classified for each of the plurality of emotional states.

상기 감정 정보는 상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류되어 카운팅된 횟수를 확률 분포로 표현될 수 있다. The emotional information may be expressed as a probability distribution of the number of times the emotional word is classified and counted for each of the plurality of emotional states.

상기 감정 상태의 감정 정보를 산출하는 단계는, 다음의 수학식에 적용하여 감정 상태별로 감정 정보를 산출할 수 있다. In the step of calculating emotional information for the emotional state, emotional information can be calculated for each emotional state by applying the following equation.

여기서, 는 구절에 포함된 감정 상태별 감정 정보이고, 는 후렴구에 포함된 감정 상태별 감정 정보이며, 는 기 설정된 감정 상태의 종류에 대한 개수를 나타내고, 는 구절에서 추출된 감정과 관련된 감정 단어의 개수를 나타내며, 는 후렴구에서 추출된 감정과 관련된 감정 단어의 개수를 나타낸다. here, is emotional information for each emotional state included in the passage, is the emotional information for each emotional state included in the refrain, represents the number of types of preset emotional states, represents the number of emotion words related to the emotion extracted from the passage, represents the number of emotion words related to the emotion extracted from the refrain.

상기 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 단계는, 상기 기본 배경 이미지와 상기 선택된 감정 이미지를 CNN(Convolutional Neural Network) 및 GAN(Generative Adversarial Network)에 적용하여 상기 스타일이 변환된 기본 배경 이미지를 생성하는 단계, 노래 재생시에 상기 스타일이 변환된 기본 배경 이미지를 상기 구절 및 후렴구에 대응하여 순차적으로 변경하여 출력하는 단계를 포함할 수 있다. The step of sequentially outputting the style-converted basic background image includes applying the basic background image and the selected emotional image to a CNN (Convolutional Neural Network) and GAN (Generative Adversarial Network) to obtain the style-converted basic background image. It may include generating a basic background image whose style has been converted when playing a song and sequentially changing and outputting the basic background image corresponding to the phrase and refrain.

본 발명의 다른 실시예에 따르면, 노래 가사 분석을 이용한 배경 스타일 변환 장치에 있어서, 서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장하는 저장부, 재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 상기 가사에서 복수의 구절 및 후렴구를 추출하고, 상기 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정단어를 추출하여 상기 추출된 하나 이상의 감정 단어를 기 설정된 복수의 감정 상태로 분류하며, 감정 상태별로 분류된 감정 단어를 이용하여 해당되는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 산출하는 감정 정보 산출부, 상기 감정 상태의 감정 정보를 기 저장된 복수의 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 이미지 선택부, 그리고 상기 기본 배경 이미지와 상기 선택된 감정 이미지를 각각의 구절 및 후렴구별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 배경 이미지 출력부를 포함한다. According to another embodiment of the present invention, in a background style conversion device using song lyric analysis, a storage unit for storing a plurality of emotional images having emotional information about different emotions, lyrics of a song to be played, and a basic background image Upon receiving input, a plurality of phrases and refrains are extracted from the lyrics, emotional words related to one or more emotions are extracted from each of the plurality of phrases and refrains, and the extracted one or more emotional words are classified into a plurality of preset emotional states. An emotional information calculation unit that calculates emotional information of the emotional state for each of the corresponding phrases and refrains using emotional words classified by emotional state, and combines the emotional information of the emotional state with the emotional information of a plurality of previously stored emotional images. An image selection unit that compares and calculates the similarity and selects the emotional image with the highest similarity, and applies the basic background image and the selected emotional image to a learning model for each verse and chorus to create a basic background image whose style has been converted. It includes a background image output unit that outputs sequentially.

이와 같이 본 발명에 따르면, 가사와 관련된 감정에 대응하는 무대 배경 이미지의 스타일을 관객 또는 영상 시청자들에게 제공함으로써, 가사에 포함하고 감정을 극대화하여 시각적으로 관객 또는 영상 시청자에게 제공할 수 있다. 또한, 가사에서 표현하고자 하는 의미나 목적에 맞게 배경 이미지 스타일을 합성하여 재생함으로써, 관객 또는 영상 시청자의 몰입도를 향상시킬 수 있다.In this way, according to the present invention, by providing the audience or video viewers with a style of stage background image corresponding to the emotions related to the lyrics, it is possible to visually provide the audience or video viewers by including them in the lyrics and maximizing the emotions. In addition, the immersion of the audience or video viewer can be improved by combining and playing background image styles according to the meaning or purpose intended to be expressed in the lyrics.

도 1은 본 발명의 실시예에 따른 노래 가사 분석을 이용한 배경 스타일 변환 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 노래 가사 분석을 이용한 배경 스타일 변환 장치의 배경 스타일 변환 방법을 설명하기 위한 순서도이다.
도 3은 도 2의 S210 단계를 설명하기 위한 예시도이다.
도 4는 도 2의 S220 단계를 설명하기 위한 예시도이다.
도 5는 도 2의 S230 및 S240 단계를 설명하기 위한 예시도이다.
도 6은 도 2의 S250 및 S260 단계를 설명하기 위한 예시도이다.
도 7a 및 도 7b는 도 2의 S270 단계를 설명하기 위한 예시도이다.
Figure 1 is a diagram for explaining the configuration of a background style conversion device using song lyric analysis according to an embodiment of the present invention.
Figure 2 is a flowchart for explaining a background style conversion method of a background style conversion device using song lyric analysis according to an embodiment of the present invention.
Figure 3 is an example diagram for explaining step S210 of Figure 2.
Figure 4 is an example diagram for explaining step S220 of Figure 2.
Figure 5 is an example diagram for explaining steps S230 and S240 of Figure 2.
Figure 6 is an example diagram for explaining steps S250 and S260 of Figure 2.
FIGS. 7A and 7B are exemplary diagrams for explaining step S270 of FIG. 2.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present invention in the drawings, parts that are not related to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to “include” a certain element, this means that it may further include other elements rather than excluding other elements, unless specifically stated to the contrary.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.Then, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention.

이하에서는 도 1을 이용하여 본 발명의 실시예에 따른 노래 가사 분석을 이용한 배경 스타일 변환 장치(100)에 대하여 설명한다.Hereinafter, the background style conversion device 100 using song lyric analysis according to an embodiment of the present invention will be described using FIG. 1.

도 1은 본 발명의 실시예에 따른 노래 가사 분석을 이용한 배경 스타일 변환 장치의 구성을 설명하기 위한 도면이다.Figure 1 is a diagram for explaining the configuration of a background style conversion device using song lyric analysis according to an embodiment of the present invention.

도 1에서 도시한 바와 같이, 배경 스타일 변환 장치(100)는 저장부(110), 감정 정보 산출부(120), 이미지 선택부(130), 학습부(140) 및 배경 이미지 출력부(150)를 포함한다.As shown in FIG. 1, the background style conversion device 100 includes a storage unit 110, an emotion information calculation unit 120, an image selection unit 130, a learning unit 140, and a background image output unit 150. Includes.

먼저, 저장부(110)는 서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장한다.First, the storage unit 110 stores a plurality of emotional images having emotional information about different emotions.

이때, 복수의 감정 상태는 기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움 중에서 적어도 하나를 포함한다. At this time, the plural emotional states include at least one of anticipation, joy, trust, surprise, anger, disgust, sadness, and fear.

즉, 저장부(110)는 기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움의 감정 상태에 대한 감정 정보를 가지는 하나 이상의 감정 이미지를 저장한다. That is, the storage unit 110 stores one or more emotional images containing emotional information about the emotional states of anticipation, joy, trust, surprise, anger, disgust, sadness, and fear.

다음으로, 감정 정보 산출부(120)는 재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 재생하고자 하는 가사에서 복수의 구절 및 후렴구를 추출한다.Next, when the emotional information calculation unit 120 receives the lyrics and basic background image of a song to be played, it extracts a plurality of phrases and refrains from the lyrics to be played.

이때, 감정 정보 산출부(120)는 노래의 가사에서 반복이 없는 문장을 구절로 추출하고, 반복되는 문장을 후렴구로 추출한다. At this time, the emotional information calculation unit 120 extracts sentences without repetition from the lyrics of the song as phrases, and extracts repetitive sentences as refrains.

그리고, 감정 정보 산출부(120)는 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출하여 추출된 하나 이상의 감정 단어를 기 설정된 복수의 감정 상태로 분류한다.Then, the emotional information calculation unit 120 extracts emotional words related to one or more emotions from each of the plurality of phrases and refrains and classifies the extracted one or more emotional words into a plurality of preset emotional states.

그리고, 감정 정보 산출부(120)는 감정 상태별로 분류된 감정 단어를 이용하여 해당되는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 산출한다. Then, the emotional information calculation unit 120 uses emotional words classified by emotional state to calculate emotional information of the emotional state for each of the corresponding phrases and refrains.

이때, 감정 정보 산출부(120)는 복수의 감정 상태 각각에 대하여 감정 단어가 분류된 횟수를 카운팅하여 감정 정보를 산출한다. At this time, the emotion information calculation unit 120 calculates emotion information by counting the number of times an emotion word is classified for each of a plurality of emotional states.

그리고, 감정 정보는 복수의 감정 상태 각각에 대하여 감정 단어가 분류되어 카운팅된 횟수를 확률 분포로 표현된다. Additionally, the emotional information is expressed as a probability distribution of the number of times an emotional word is classified and counted for each of a plurality of emotional states.

다음으로, 이미지 선택부(130)는 감정 상태의 감정 정보를 기 저장된 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택한다.Next, the image selection unit 130 calculates the degree of similarity by comparing the emotional information of the emotional state with the emotional information of the previously stored emotional image, and selects the emotional image with the greatest similarity.

즉, 이미지 선택부(130)는 저장부(110)로부터 기 저장된 감정 이미지 중에서 각각의 구절 및 후렴구에 대한 감정 상태의 감정 정보와 가장 큰 유사도를 갖는 감정 이미지를 선택한다. That is, the image selection unit 130 selects the emotional image with the greatest similarity to the emotional information of the emotional state for each verse and refrain from among the previously stored emotional images from the storage unit 110.

다음으로, 학습부(140)는 기본 배경 이미지와 각각의 구절 및 후렴구에 대응하는 감정 이미지를 CNN(Convolutional Neural Network) 및 GAN(Generative Adversarial Network)에 적용하여 스타일이 변환된 기본 배경 이미지를 생성한다. Next, the learning unit 140 applies the basic background image and the emotional images corresponding to each verse and refrain to a Convolutional Neural Network (CNN) and a Generative Adversarial Network (GAN) to generate a basic background image whose style has been converted. .

즉, 학습부(140)는 기 입력된 기본 배경 이미지와 이미지 선택부(130)로부터 선택된 감정 이미지를 입력데이터로 하고, 스타일이 변환된 기본 배경 이미지를 출력데이터로 하여 학습모델을 학습시킨다. That is, the learning unit 140 uses the previously input basic background image and the emotion image selected from the image selection unit 130 as input data, and uses the basic background image whose style has been converted as output data to learn a learning model.

다음으로, 배경 이미지 출력부(150)는 기본 배경 이미지와 각각의 구절 및 후렴구에 대응하는 감정 이미지를 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력한다. Next, the background image output unit 150 sequentially outputs the basic background image whose style has been converted by applying the basic background image and the emotional image corresponding to each phrase and refrain to the learning model.

이때, 배경 이미지 출력부(150)는 노래 재생시에 스타일이 변환된 기본 배경 이미지를 구절 및 후렴구에 대응하여 순차적으로 변경하여 출력한다. At this time, the background image output unit 150 sequentially changes and outputs the basic background image whose style has been changed in response to the verse and chorus when playing the song.

이하에서는 도 2를 이용하여 노래 가사 분석을 이용하여 배경 스타일을 변환하는 방법에 대해서 설명한다.Below, a method for converting the background style using song lyric analysis will be described using FIG. 2.

도 2는 본 발명의 실시예에 따른 노래 가사 분석을 이용한 배경 스타일 변환 장치의 배경 스타일 변환 방법을 설명하기 위한 순서도이다. Figure 2 is a flowchart for explaining a background style conversion method of a background style conversion device using song lyric analysis according to an embodiment of the present invention.

먼저, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장한다(S210).First, the background style conversion device 100 according to an embodiment of the present invention stores a plurality of emotional images having emotional information about different emotions (S210).

이때, 복수의 감정 상태는 대표적인 8개의 감정 상태인 기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움 중에서 적어도 하나를 포함할 수 있으며, 사용자에 의해 복수의 감정 상태의 구성은 다르게 설정될 수 있다. At this time, the plurality of emotional states may include at least one of the eight representative emotional states of anticipation, joy, trust, surprise, anger, disgust, sadness, and fear, and the composition of the plurality of emotional states can be set differently by the user. It can be.

도 3은 도 2의 S210 단계를 설명하기 위한 예시도이다.Figure 3 is an example diagram for explaining step S210 of Figure 2.

도 3에서 도시한 바와 같이, 도 3의 (a)는 역겨움(Disgust)의 감정 상태에 대하여 10%의 감정 정보를 가지고, 두려움(Fear)의 감정 상태에 대하여 20%의 감정 정보를 가지며, 슬픔(Sad)의 감정 상태에 대하여 30%의 감정 정보를 가진다.As shown in Figure 3, Figure 3(a) has 10% emotional information for the emotional state of Disgust, 20% emotional information for the emotional state of Fear, and Sadness. It has 30% emotional information about (Sad)'s emotional state.

그리고, 도 3의 (b)는 화남(Anger)의 감정 상태에 대하여 7%의 감정 정보, 기대함(Anticipation)의 감정 상태에 대하여 15%의 감정 정보, 두려움의 감정 상태에 대하여 20%의 감정 정보, 즐거움(Joy)의 감정 상태에 대하여 5%의 감정 정보를 가진다.In addition, (b) in Figure 3 shows 7% of emotional information for the emotional state of Anger, 15% of emotional information for the emotional state of Anticipation, and 20% of emotional information for the emotional state of Fear. It has 5% emotional information about the emotional state of information and joy.

또한, 도 3의 (c)는 기대함의 감정 상태에 대하여 20%의 감정 정보, 두려움의 감정 상태에 대하여 5%의 감정 정보, 즐거움의 감정 상태에 대하여 15%의 감정 정보, 슬픔의 감정 상태에 대하여 10%의 감정 정보를 가진다. In addition, Figure 3 (c) shows 20% of emotional information for the emotional state of anticipation, 5% of emotional information for the emotional state of fear, 15% of emotional information for the emotional state of joy, and 15% of emotional information for the emotional state of sadness. It has 10% emotional information.

도 3의 (a), (b), (c)에서와 같이, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 서로 다른 8개의 감정에 대한 감정 정보를 가지는 감정 이미지를 사용자로부터 입력받거나 저장할 수 있다. As shown in Figures 3 (a), (b), and (c), the background style conversion device 100 according to an embodiment of the present invention inputs an emotional image having emotional information for eight different emotions from the user. You can receive or save it.

그리고, 재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 재생하고자 하는 노래의 가사로부터 복수의 구절 및 후렴구를 추출한다(S220).Then, upon receiving the lyrics and basic background image of the song to be played, the background style conversion device 100 according to an embodiment of the present invention extracts a plurality of phrases and refrains from the lyrics of the song to be played (S220).

이때, 배경 스타일 변환 장치(100)는 재생하고자 하는 노래의 가사로부터 복수의 문장으로 나누며, 복수의 문장 중에서 반복이 없는 문장을 구절로 추출하고, 반복되는 문장을 후렴으로 추출한다. At this time, the background style conversion device 100 divides the lyrics of the song to be played into a plurality of sentences, extracts sentences without repetition as phrases from among the plurality of sentences, and extracts repeated sentences as refrains.

도 4는 도 2의 S220 단계를 설명하기 위한 예시도이다.Figure 4 is an example diagram for explaining step S220 of Figure 2.

예를 들어, 도 4에서 도시한 바와 같이, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 노래의 가사(Lyrics)를 복수의 문장으로 나눈다. 이때, 입력된 가사 중 "Her alarm goes off"는 반복이 없는 문장이고, "But a shop was built right across the street"은 반복이 있는 문장이라고 가정한다.For example, as shown in FIG. 4, the background style conversion device 100 according to an embodiment of the present invention divides the lyrics of a song into a plurality of sentences. At this time, it is assumed that among the input lyrics, “Her alarm goes off” is a sentence without repetition, and “But a shop was built right across the street” is a sentence with repetition.

그러면, 배경 스타일 변환 장치(100)는 "Her alarm goes off"의 문장을 구절(Verses)로 추출하고, "But a shop was built right across the street"의 문장을 후렴구(Choruses)로 추출할 수 있다.Then, the background style conversion device 100 can extract the sentence “Her alarm goes off” as a verse and the sentence “But a shop was built right across the street” as a chorus. .

다음으로, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출한다(S230).Next, the background style conversion device 100 according to an embodiment of the present invention extracts an emotional word related to one or more emotions from each of a plurality of phrases and refrains (S230).

도 5는 도 2의 S230 및 S240 단계를 설명하기 위한 예시도이다. Figure 5 is an example diagram for explaining steps S230 and S240 of Figure 2.

예를 들어, 도 5에서 도시한 바와 같이, 배경 스타일 변환 장치(100)는 구절 1(Verses 1)에서 "alarm", "Watch", "Youth" 등의 단어를 감정과 관련된 단어로 추출할 수 있고, 후렴구 1(Chorus 1)에서 "Built" "Right", "Stands" 등의 단어를 감정과 관련된 단어로 추출하며, 구절 2(Verses 2)에서 "Hero", "Old", "Smile" 등의 단어를 감정과 관련된 단어로 추출한다. For example, as shown in FIG. 5, the background style conversion device 100 can extract words such as “alarm,” “Watch,” and “Youth” from Verses 1 as words related to emotions. In Chorus 1, words such as “Built,” “Right,” and “Stands” are extracted as words related to emotions, and in Verses 2, words such as “Hero,” “Old,” and “Smile” are extracted. Extract words related to emotions.

다음으로, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 추출된 하나 이상의 감정과 관련된 감정 단어를 기 설정된 하나 이상의 감정 상태로 분류한다(S240).Next, the background style conversion apparatus 100 according to an embodiment of the present invention classifies the extracted emotional words related to one or more emotions into one or more preset emotional states (S240).

예를 들어, 도 5와 같이, 배경 스타일 변환 장치(100)는 구절 1(Verses 1)에서 "alarm"를 복수의 감정 상태 중에서 두려움(Fear), 놀라움(Surprise)의 감정 상태로 분류할 수 있고, "Watch"을 복수의 감정 상태 중에서 기대함(Anticipation), 두려움의 감정 상태로 분류할 수 있으며, "Youth"를 복수의 감정 상태 중에서 화남(Anger), 기대함, 두려움, 즐거운(Joy), 놀라움의 감정 상태로 분류할 수 있다. For example, as shown in FIG. 5, the background style conversion device 100 may classify “alarm” in Verses 1 as the emotional state of fear and surprise among a plurality of emotional states. , "Watch" can be classified into the emotional states of Anticipation and Fear among the multiple emotional states, and "Youth" can be classified into the emotional states of Anger, Anticipation, Fear, Joy, and the multiple emotional states. It can be classified as an emotional state of surprise.

그리고, 배경 스타일 변환 장치(100)는 후렴구 1(Chorus 1)에서 "Built", "Right", "Stands" 각각을 복수의 감정 상태 중에서 기대함, 즐거운, 놀라움, 신뢰(Trust) 의 감정 상태로 분류할 수 있다. And, the background style conversion device 100 converts “Built,” “Right,” and “Stands” from Chorus 1 into the emotional states of anticipation, joy, surprise, and trust among multiple emotional states. Can be classified.

또한, 배경 스타일 변환 장치(100)는 구절 2(Verses 2)에서 "Hero"를 복수의 감정 상태 중에서 기대함, 즐거움, 놀라움, 신뢰의 감정 상태로 분류할 수 있고, "Old"를 슬픔(Sadness)의 감정 상태로 분류할 수 있으며, "Smile"을 즐거운, 놀라움, 신뢰의 감정 상태로 분류할 수 있다. In addition, the background style conversion device 100 can classify "Hero" in Verses 2 as an emotional state of expectation, joy, surprise, and trust among a plurality of emotional states, and "Old" as Sadness. ) can be classified as an emotional state, and "Smile" can be classified as an emotional state of joy, surprise, and trust.

그리고, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 복수의 감정 상태 각각에 대하여 감정 단어가 분류된 횟수를 카운팅하여 감정 정보를 산출한다(S250).Then, the background style conversion device 100 according to an embodiment of the present invention calculates emotional information by counting the number of times an emotional word is classified for each of a plurality of emotional states (S250).

이때, 배경 스타일 변환 장치(100)는 다음의 수학식 1에 적용하여 감정 상태별로 감정 정보를 산출한다. At this time, the background style conversion device 100 calculates emotional information for each emotional state by applying Equation 1 below.

그리고, 감정 정보는 복수의 감정 상태 각각에 대하여 감정 단어가 분류되어 카운팅된 횟수를 수학식 1을 통해 확률분포로 표현될 수 있다. In addition, emotional information can be expressed as a probability distribution using Equation 1, which represents the number of times an emotional word is classified and counted for each of a plurality of emotional states.

여기서, 는 구절에 포함된 감정 상태별 감정 정보이고, 는 후렴구에 포함된 감정 상태별 감정 정보이며, 는 기 설정된 감정 상태의 종류에 대한 개수를 나타내고, 는 구절에서 추출된 감정과 관련된 단어의 개수를 나타내며, 는 후렴구에서 추출된 감정과 관련된 단어의 개수를 나타낸다. here, is emotional information for each emotional state included in the passage, is the emotional information for each emotional state included in the refrain, represents the number of types of preset emotional states, represents the number of words related to emotions extracted from the passage, represents the number of words related to emotions extracted from the refrain.

즉, S220 단계에서 나누어진 문장을 Li라고 하고, n개의 구절과 m개의 후렴구로 나누어진 상태를 각각 Li Vn, Li Cm이라고 표현한다고 가정하면, n개의 구절(Li Vn)은 구절에 포함된 감정과 관련된 단어를 포함한다().In other words, assuming that the sentence divided in step S220 is called L i and the state divided into n phrases and m refrains is expressed as L i Vn and L i Cm , respectively, the n phrases (L i Vn ) are phrases. Contains words related to emotions included in ( ).

그리고, m개의 후렴구(Li Cm)는 후렴구에 포함된 감정과 관련된 단어를 포함한다(). And, m refrains (L i Cm ) include words related to the emotions included in the refrain ( ).

그리고, 복수의 감정 상태는 bn로 나타낸다고 가정하면, 8가지의 감정 상태를 각각 b1, b2, b3, b4, b5, b6, b7, b8로 나타낼 수 있다. And, assuming that multiple emotional states are represented by b n , eight emotional states can be represented by b 1 , b 2 , b 3 , b 4 , b 5 , b 6 , b 7 , and b 8 , respectively.

따라서, 배경 스타일 변환 장치(100)는 n개의 구절에 포함된 감정과 관련된 단어들을 복수의 감정 상태 각각으로 분류하며, 로 나타낼 수 있다. Accordingly, the background style conversion device 100 classifies the emotion-related words included in the n phrases into each of a plurality of emotional states, It can be expressed as

그리고, 배경 스타일 변환 장치(100)는 m개의 후렴구에 포함된 감정과 관련된 단어들을 복수의 감정 상태 각각으로 분류하여 로 나타낼 수 있다. Then, the background style conversion device 100 classifies the emotion-related words included in the m refrains into each of a plurality of emotional states. It can be expressed as

그러면, 배경 스타일 변환 장치(100)는 수학식 1의 BVn, BCm에 대입하여 각각의 구절 및 후렴구에서 포함된 각각의 감정 상태별 감정 정보를 산출할 수 있다. Then, the background style conversion device 100 can calculate emotional information for each emotional state included in each verse and refrain by substituting B Vn and B Cm in Equation 1.

도 6은 도 2의 S250 및 S260 단계를 설명하기 위한 예시도이다. Figure 6 is an example diagram for explaining steps S250 and S260 of Figure 2.

예를 들어, 도 6에서 도시한 바와 같이, 구절 1(Verses 1)에서 총 감정 단어(Total Emotion Word)가 14개라고 가정하면, 배경 스타일 변환 장치(100)는 수학식 1에 적용하여 화남에 대한 감정 상태의 감정 정보를 7.7%로 산출할 수 있고, 수학식 1에 적용하여 기대함에 대한 감정 상태의 감정 정보를 15.4%로 산출할 수 있다. For example, as shown in FIG. 6, assuming that the Total Emotion Word in Verses 1 is 14, the background style conversion device 100 applies Equation 1 to Hwanam. The emotional information of the emotional state of expectation can be calculated as 7.7%, and by applying Equation 1, the emotional information of the emotional state of expectation can be calculated as 15.4%.

그리고, 배경 스타일 변환 장치(100)는 수학식 1에 적용하여 두려움에 대한 감정 상태의 감정 정보를 23.1%로 산출할 수 있으며, 수학식 1에 적용하여 즐거움에 대한 감정 상태의 감정 정보를 7.7%로 산출할 수 있다. In addition, the background style conversion device 100 can calculate the emotional information of the emotional state of fear as 23.1% by applying Equation 1, and calculate the emotional information of the emotional state of joy by 7.7% by applying Equation 1. It can be calculated as:

이와 동일한 방법으로, 배경 스타일 변환 장치(100)는 후렴구 1(Chorus 1)과 구절 2(Verses 2)에서의 기본 감정 상태 각각에 대한 감정 정보를 산출할 수 있다. In the same way, the background style conversion device 100 can calculate emotional information for each of the basic emotional states in Chorus 1 and Verses 2.

그러면, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 감정 상태의 감정 정보를 기 저장된 복수의 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택한다(S260).Then, the background style conversion device 100 according to an embodiment of the present invention calculates the degree of similarity by comparing the emotional information of the emotional state with the emotional information of a plurality of previously stored emotional images, and selects the emotional image with the greatest similarity ( S260).

이때, 배경 스타일 변환 장치(100)는 다음의 수학식 2를 이용하여 노래 가사의 구절과 후렴구별로 추출된 감정 상태의 감정 정보와 기 저장된 복수의 감정 이미지의 감정 정보를 비교하여 유사도를 산출한다.At this time, the background style conversion device 100 calculates the degree of similarity by comparing the emotional information of the emotional state extracted for each phrase and refrain of the song lyrics with the emotional information of a plurality of previously stored emotional images using Equation 2 below.

여기서, i는 기 저장된 감정 이미지의 인덱스이고, U는 구절 또는 후렴구별 감정 상태의 감정 정보며, Vi는 감정 이미지의 감정 정보를 나타낸다.Here, i is the index of the previously stored emotional image, U is the emotional information of the emotional state for each verse or refrain, and V i represents the emotional information of the emotional image.

즉, 배경 스타일 변환 장치(100)는 노래 가사의 구절과 후렴구마다 추출된 감정 상태의 감정 정보와 감정 이미지의 감정 정보를 이용하여 감정 정보의 차이가 최솟값이 되는 를 산출한다. In other words, the background style conversion device 100 uses the emotional information of the emotional state and the emotional information of the emotional image extracted for each verse and refrain of the song lyrics, so that the difference in emotional information becomes the minimum value. Calculate .

그러면, 배경 스타일 변환 장치(100)는 최솟값이 되는 를 가지는 감정 이미지를 유사도가 가장 큰 것으로 선택한다. Then, the background style conversion device 100 determines the minimum value. The emotional image with the highest similarity is selected.

예를 들어, 도 6과 같이, 배경 스타일 변환 장치(100)는 구절 1(Verses 1)에 대한 감정 상태의 감정 정보와 기 저장된 감정 이미지의 감정 정보를 수학식 2에 적용하여 구절 1(Verses 1)에 대한 감정 상태의 감정 정보와 유사도가 큰 도 6의 (b)의 감정 이미지를 선택한다. For example, as shown in FIG. 6, the background style conversion device 100 applies the emotional information of the emotional state for Verses 1 and the emotional information of the previously stored emotional image to Equation 2 to obtain Verses 1. ) Select the emotional image in (b) of Figure 6 that has high similarity to the emotional information of the emotional state.

그리고, 배경 스타일 변환 장치(100)는 후렴구 1(Chorus 1)에 대한 감정 상태의 감정 정보와 기 저장된 감정 이미지의 감정 정보를 수학식 2에 적용하여 후렴구 1(Chorus 1)에 대한 감정 상태의 감정 정보와 유사도가 큰 도 6의 (c)의 감정 이미지를 선택한다. And, the background style conversion device 100 By applying the emotional information of the emotional state for Chorus 1 and the emotional information of the previously stored emotional image to Equation 2, (c) of FIG. 6, which has a high degree of similarity with the emotional information of the emotional state for Chorus 1, is calculated. ) Select the emotional image.

다음으로, 본 발명의 실시예에 따른 배경 스타일 변환 장치(100)는 기본 배경 이미지와 선택된 감정 이미지를 각각의 구절 및 후렴구별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력한다(S270).Next, the background style conversion device 100 according to an embodiment of the present invention applies the basic background image and the selected emotional image to the learning model for each phrase and refrain and sequentially outputs the basic background image whose style has been converted ( S270).

이때, 배경 스타일 변환 장치(100)는 기본 배경 이미지와 각각의 구절 및 후렴구에 대응하는 대표 감정 이미지를 CNN(Convolutional Neural Network) 및 GAN(Generative Adversarial Network)에 적용하여 스타일이 변환된 기본 배경 이미지를 생성한다. At this time, the background style conversion device 100 applies the basic background image and representative emotional images corresponding to each verse and refrain to CNN (Convolutional Neural Network) and GAN (Generative Adversarial Network) to create the basic background image whose style has been converted. Create.

그러면, 배경 스타일 변환 장치(100)는 스타일이 변환된 기본 배경 이미지를 각각의 구절 및 후렴구에 대응하여 순차적으로 변경하여 출력한다.Then, the background style conversion device 100 sequentially changes and outputs the basic background image whose style has been converted to correspond to each phrase and refrain.

도 7a 및 도 7b는 도 2의 S270 단계를 설명하기 위한 예시도이다.FIGS. 7A and 7B are exemplary diagrams for explaining step S270 of FIG. 2.

도 7a에서 도시한 바와 같이, 배경 스타일 변환 장치(100)는 입력받은 기본 배경 이미지와 S270 단계에서 선택된 구절 1(Verses 1)의 감정 이미지를 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 생성할 수 있다.As shown in FIG. 7A, the background style conversion device 100 generates a basic background image whose style has been converted by applying the input basic background image and the emotional image of Verses 1 selected in step S270 to the learning model. can do.

그리고, 배경 스타일 변환 장치(100)는 입력받은 기본 배경 이미지와 S270 단계에서 선택된 후렴구 1(Chorus 1)의 감정 이미지를 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 생성할 수 있다.Additionally, the background style conversion device 100 may generate a basic background image whose style has been converted by applying the input basic background image and the emotional image of Chorus 1 selected in step S270 to the learning model.

예를 들어, 노래가 재생되어 구절 1(Verses 1)의 가사가 출력되면, 도 7b와 같이, 배경 스타일 변환 장치(100)는 구절 1(Verses 1)에 해당하는 스타일이 변환된 기본 배경 이미지를 출력하고, 후렴구 1(Chorus 1)의 가사가 출력되면, 배경 스타일 변환 장치(100)는 후렴구 1(Chorus 1) 에 해당하는 스타일이 변환된 기본 배경 이미지를 출력할 수 있다.For example, when a song is played and the lyrics of Verses 1 are output, as shown in FIG. 7B, the background style conversion device 100 converts the basic background image into which the style corresponding to Verses 1 has been converted. When the lyrics of Chorus 1 are output, the background style conversion device 100 can output a basic background image whose style corresponding to Chorus 1 has been converted.

이와 동일한 방법으로, 구절 2(Verses 2) 및 구절 3(Verses 3)의 가사가 출력되면, 배경 스타일 변환 장치(100)는 구절 2(Verses 2) 및 구절 3(Verses 3) 각각에 해당하는 스타일이 변환된 기본 배경 이미지를 순차적으로 변경하여 출력할 수 있다. In the same way, when the lyrics of Verses 2 and Verses 3 are output, the background style conversion device 100 converts the styles corresponding to Verses 2 and Verses 3, respectively. This converted basic background image can be sequentially changed and output.

이와 같이, S270단계에서 출력된 스타일이 변환된 기본 배경 이미지는 무대, 연극, 뮤지컬 등에서 배경 이미지로 적용가능하며, 노래방, 뮤직비디오 등과 같은 영상에서도 적용할 수 있다. In this way, the basic background image with the converted style output in step S270 can be applied as a background image in stages, plays, musicals, etc., and can also be applied in videos such as karaoke rooms and music videos.

이와 같이 본 발명의 실시예에 따르면, 가사와 관련된 감정에 대응하는 무대 배경 이미지의 스타일을 관객 또는 영상 시청자들에게 제공함으로써, 가사에 포함하고 감정을 극대화하여 시각적으로 관객에게 제공할 수 있다. 또한, 가사에서 표현하고자 하는 의미나 목적에 맞게 배경 이미지 스타일을 합성하여 재생함으로써, 관객 또는 영상 시청자의 몰입도를 향상시킬 수 있다.In this way, according to an embodiment of the present invention, by providing the audience or video viewers with a style of stage background image corresponding to the emotion related to the lyrics, it is possible to include it in the lyrics and maximize the emotion and visually provide it to the audience. In addition, the immersion of the audience or video viewer can be improved by combining and playing background image styles according to the meaning or purpose intended to be expressed in the lyrics.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.The present invention has been described with reference to the embodiments shown in the drawings, but these are merely exemplary, and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Therefore, the true scope of technical protection of the present invention should be determined by the technical spirit of the attached patent claims.

100: 스타일 변환 장치, 110: 저장부,
120: 감정 정보 산출부, 130: 이미지 선택부,
140: 학습부, 150: 배경 이미지 출력부
100: style conversion device, 110: storage unit,
120: emotional information calculation unit, 130: image selection unit,
140: Learning unit, 150: Background image output unit

Claims (16)

노래 가사 분석을 이용한 배경 스타일 변환 장치의 배경 스타일 변환 방법에 있어서,
서로 다른 감정에 대한 감정 정보를 가지는 복수의 감정 이미지를 저장하는 단계,
재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 상기 가사로부터 복수의 구절 및 후렴구를 추출하는 단계,
상기 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출하여 상기 추출된 하나 이상의 감정 단어를 기 설정된 감정 상태로 분류하는 단계,
감정 상태별로 분류된 감정 단어를 이용하여 해당되는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 산출하는 단계,
상기 감정 상태의 감정 정보를 기 저장된 복수의 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 단계, 그리고
상기 기본 배경 이미지와 상기 선택된 감정 이미지를 각각의 구절 및 후렴구별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 단계를 포함하고,
상기 감정 상태의 감정 정보를 산출하는 단계는,
상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류된 횟수를 카운팅하고 다음의 수학식에 적용하여 감정 상태별로 감정 정보를 산출하는 배경 스타일 변환 방법:

여기서, 는 구절에 포함된 감정 상태별 감정 정보이고, 는 후렴구에 포함된 감정 상태별 감정 정보이며, 는 기 설정된 감정 상태의 종류에 대한 개수 를 나타내고, 는 구절에서 추출된 감정과 관련된 감정 단어의 개수를 나타내며, 는 후렴구에서 추출된 감정과 관련된 감정 단어의 개수를 나타낸다.
In the background style conversion method of the background style conversion device using song lyric analysis,
Storing a plurality of emotional images having emotional information about different emotions,
Upon receiving the lyrics and basic background image of a song to be played, extracting a plurality of phrases and refrains from the lyrics;
extracting emotional words related to one or more emotions from each of the plurality of phrases and refrains and classifying the extracted one or more emotional words into a preset emotional state;
A step of calculating emotional information of the emotional state for each corresponding phrase and refrain using emotional words classified by emotional state;
Comparing the emotional information of the emotional state with the emotional information of a plurality of previously stored emotional images to calculate similarity, and selecting the emotional image with the greatest similarity, and
Applying the basic background image and the selected emotional image to a learning model for each verse and chorus to sequentially output a basic background image whose style has been converted,
The step of calculating emotional information of the emotional state is,
A background style conversion method for calculating emotional information for each emotional state by counting the number of times the emotional word is classified for each of the plurality of emotional states and applying the following equation:

here, is emotional information for each emotional state included in the passage, is the emotional information for each emotional state included in the refrain, represents the number of types of preset emotional states, represents the number of emotion words related to the emotion extracted from the passage, represents the number of emotion words related to the emotion extracted from the refrain.
제1항에 있어서,
상기 복수의 감정 상태는,
기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움 중에서 적어도 하나를 포함하는 배경 스타일 변환 방법.
According to paragraph 1,
The plurality of emotional states is,
A background style conversion method that includes at least one of the following: Expected, Happy, Trusted, Surprised, Angry, Disgusted, Sad, or Fearful.
제1항에 있어서,
상기 복수의 구절 및 후렴구를 추출하는 단계는,
상기 노래의 가사에서 반복이 없는 문장을 구절로 추출하고, 반복되는 문장을 후렴구로 추출하는 배경 스타일 변환 방법.
According to paragraph 1,
The step of extracting the plurality of phrases and refrains is,
A background style conversion method that extracts non-repetitive sentences from the lyrics of the song as verses, and extracts repeated sentences as refrains.
삭제delete 제1항에 있어서,
상기 감정 정보는 상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류되어 카운팅된 횟수를 확률분포로 표현되는 배경 스타일 변환 방법.
According to paragraph 1,
The emotional information is a background style conversion method in which the number of times the emotional word is classified and counted for each of the plurality of emotional states is expressed as a probability distribution.
삭제delete 제1항에 있어서,
상기 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 단계는,
다음의 수학식을 이용하여 을 산출하고, 이 최솟값을 가지는 감정 이미지를 유사도가 가장 큰 감정 이미지로 선택하는 배경 스타일 변환 방법:

여기서, i는 기저장된 감정 이미지의 인덱스, U는 구절 또는 후렴구별 감정 상태의 감정 정보이고, Vi는 감정 이미지의 감정 정보를 나타낸다.
According to paragraph 1,
The step of calculating the similarity and selecting the emotional image with the highest similarity is,
Using the following equation: Calculate , A background style transformation method that selects the emotion image with this minimum value as the emotion image with the greatest similarity:

Here, i is the index of the pre-stored emotional image, U is the emotional information of the emotional state for each verse or refrain, and V i represents the emotional information of the emotional image.
제1항에 있어서,
상기 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 단계는,
상기 기본 배경 이미지와 상기 선택된 감정 이미지를 CNN(Convolutional Neural Network) 및 GAN(Generative Adversarial Network)에 적용하여 상기 스타일이 변환된 기본 배경 이미지를 생성하는 단계,
노래 재생시에 상기 스타일이 변환된 기본 배경 이미지를 상기 구절 및 후렴구에 대응하여 순차적으로 변경하여 출력하는 단계를 포함하는 배경 스타일 변환 방법.
According to paragraph 1,
The step of sequentially outputting the basic background image with the converted style is:
Applying the basic background image and the selected emotional image to a Convolutional Neural Network (CNN) and a Generative Adversarial Network (GAN) to generate a basic background image with the style converted;
A background style conversion method comprising the step of sequentially changing and outputting a basic background image whose style has been converted in response to the verse and chorus when playing a song.
노래 가사 분석을 이용한 배경 스타일 변환 장치에 있어서,
서로 다른 감정에 대한 감정 정보를 가지는 복수 의 감정 이미지를 저장하는 저장부,
재생하고자 하는 노래의 가사 및 기본 배경 이미지를 입력받으면, 상기 가사에서 복수의 구절 및 후렴구를 추출하고, 상기 복수의 구절 및 후렴구 각각에서 하나 이상의 감정과 관련된 감정 단어를 추출하여 상기 추출된 하나 이상의 감정 단어를 기 설정된 복수의 감정 상태로 분류하며, 감정 상태별로 분류된 감정 단어를 이용하여 해당되는 구절 및 후렴구 각각에 대한 감정 상태의 감정 정보를 산출하는 감정 정보 산출부,
상기 감정 상태의 감정 정보를 기 저장된 복수의 감정 이미지의 감정 정보와 비교하여 유사도를 산출하고, 유사도가 가장 큰 감정 이미지를 선택하는 이미지 선택부, 그리고
상기 기본 배경 이미지와 상기 선택된 감정 이미지를 각각의 구절 및 후렴구 별로 학습모델에 적용하여 스타일이 변환된 기본 배경 이미지를 순차적으로 출력하는 배경 이미지 출력부를 포함하고,
상기 감정 정보 산출부는,
상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류된 횟수를 카운팅하고 다음의 수학식에 적용하여 감정 상태별로 감정 정보를 산출하는 배경 스타일 변환 장치:

여기서, 는 구절에 포함된 감정 상태별 감정 정보이고, 는 후렴구에 포함된 감정 상태별 감정 정보이며, 는 기 설정된 감정 상태의 종류에 대한 개수 를 나타내고, 는 구절에서 추출된 감정과 관련된 감정 단어의 개수를 나타내며, 는 후렴구에서 추출된 감정과 관련된 감정 단어의 개수를 나타낸다.
In the background style conversion device using song lyric analysis,
A storage unit that stores a plurality of emotional images containing emotional information about different emotions,
When the lyrics and basic background image of a song to be played are input, a plurality of phrases and refrains are extracted from the lyrics, and an emotional word related to one or more emotions is extracted from each of the plurality of phrases and refrains, and the extracted one or more emotions An emotional information calculation unit that classifies words into a plurality of preset emotional states and calculates emotional information about the emotional state for each corresponding phrase and refrain using the emotional words classified by emotional state;
An image selection unit that calculates similarity by comparing the emotional information of the emotional state with emotional information of a plurality of previously stored emotional images and selects the emotional image with the greatest similarity, and
A background image output unit that applies the basic background image and the selected emotional image to a learning model for each phrase and chorus and sequentially outputs the basic background image whose style has been converted,
The emotional information calculation unit,
A background style conversion device that calculates emotional information for each emotional state by counting the number of times the emotional word is classified for each of the plurality of emotional states and applying the following equation:

here, is emotional information for each emotional state included in the passage, is the emotional information for each emotional state included in the refrain, represents the number of types of preset emotional states, represents the number of emotion words related to the emotion extracted from the passage, represents the number of emotion words related to the emotion extracted from the refrain.
제9항에 있어서,
상기 복수의 감정 상태는,
기대함, 즐거움, 신뢰, 놀라움, 화남, 역겨움, 슬픔, 두려움 중에서 적어도 하나를 포함하는 배경 스타일 변환 장치.
According to clause 9,
The plurality of emotional states is,
A background style transformer containing at least one of the following: Expected, Joyful, Trusted, Surprised, Angry, Disgusted, Sad, or Fearful.
제9항에 있어서,
상기 감정 정보 산출부는,
상기 노래의 가사에서 반복이 없는 문장을 구절로 추출하고, 반복되는 문장을 후렴구로 추출하는 배경 스타일 변환 장치.
According to clause 9,
The emotional information calculation unit,
A background style conversion device that extracts non-repetitive sentences from the lyrics of the song as verses and extracts repeated sentences as refrains.
삭제delete 제9항에 있어서,
상기 감정 정보는 상기 복수의 감정 상태 각각에 대하여 상기 감정 단어가 분류되어 카운팅된 횟수를 확률분포로 표현되는 배경 스타일 변환 장치.
According to clause 9,
The emotional information is a background style conversion device in which the number of times the emotional word is classified and counted for each of the plurality of emotional states is expressed as a probability distribution.
삭제delete 제9항에 있어서,
상기 이미지 선택부는,
다음의 수학식을 이용하여 을 산출하고, 이 최솟값을 가지는 감정 이미지를 유사도가 가장 큰 감정 이미지로 선택하는 배경 스타일 변환 장치:

여기서, i는 기 저장된 감정 이미지의 인덱스, U는 구절 또는 후렴구별 감정 상태의 감정 정보이고, Vi는 감정 이미지의 감정 정보를 나타낸다.
According to clause 9,
The image selection unit,
Using the following equation: Calculate , A background style converter that selects the emotion image with this minimum value as the emotion image with the highest similarity:

Here, i is the index of the previously stored emotional image, U is the emotional information of the emotional state for each verse or refrain, and V i represents the emotional information of the emotional image.
제9항에 있어서,
상기 기본 배경 이미지와 상기 선택된 감정 이미지를 CNN(Convolutional Neural Network) 및 GAN(Generative Adversarial Network)에 적용하여 상기 스타일이 변환된 기본 배경 이미지를 생성하는 학습부를 더 포함하고,
상기 배경 이미지 출력부는,
노래 재생시에 상기 스타일이 변환된 기본 배경 이미지를 상기 구절 및 후렴구에 대응하여 순차적으로 변경하여 출력하는 배경 스타일 변환 장치.
According to clause 9,
Further comprising a learning unit that applies the basic background image and the selected emotional image to a Convolutional Neural Network (CNN) and a Generative Adversarial Network (GAN) to generate a basic background image with the converted style,
The background image output unit,
A background style conversion device that sequentially changes and outputs the basic background image whose style has been converted in response to the verse and chorus when playing a song.
KR1020210125844A 2021-09-23 2021-09-23 Apparatus for conversing style of background using analysis song lyrics and method thereof KR102618683B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210125844A KR102618683B1 (en) 2021-09-23 2021-09-23 Apparatus for conversing style of background using analysis song lyrics and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210125844A KR102618683B1 (en) 2021-09-23 2021-09-23 Apparatus for conversing style of background using analysis song lyrics and method thereof

Publications (2)

Publication Number Publication Date
KR20230043294A KR20230043294A (en) 2023-03-31
KR102618683B1 true KR102618683B1 (en) 2023-12-29

Family

ID=86005258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210125844A KR102618683B1 (en) 2021-09-23 2021-09-23 Apparatus for conversing style of background using analysis song lyrics and method thereof

Country Status (1)

Country Link
KR (1) KR102618683B1 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102207208B1 (en) * 2014-07-31 2021-01-25 삼성전자주식회사 Method and apparatus for visualizing music information
KR102073979B1 (en) * 2019-05-13 2020-02-05 윤준호 Server and method for providing feeling analysis based emotional diary service using artificial intelligence based on speech signal
KR102386463B1 (en) * 2019-10-23 2022-04-15 주식회사 코더스 Method and server for creating lights by reflecting user emotion

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Gen Hori, Color Extraction from Lyrics, Proceedings of the 2019 4th International Conference on Automation, Control and Robotics Engineering(2019)*
Xuelong, et al., Image2song Song Retrieval via Bridging Image Content and Lyric Words, arXiv:1708.05851v1 [cs.CV](2017)*
이재환 et al., 가사의 감정 분석과 구조 분석을 이용한 노래 간 유사도 측정, 한국정보과학회정보과학회, 컴퓨팅의 실제, 제22권 제10호(2016)*

Also Published As

Publication number Publication date
KR20230043294A (en) 2023-03-31

Similar Documents

Publication Publication Date Title
CN104347080B (en) The medium of speech analysis method and device, phoneme synthesizing method and device and storaged voice analysis program
TWI716033B (en) Video Score Intelligent System
KR101886534B1 (en) System and method for composing music by using artificial intelligence
US20090071315A1 (en) Music analysis and generation method
CN101853668B (en) Method and system for transforming MIDI music into cartoon
US20080141850A1 (en) Recombinant music composition algorithm and method of using the same
JPH0348367A (en) Title associative device and word associative device
EP2073193A1 (en) Method and device for generating a soundtrack
Wang et al. Scene-aware background music synthesis
Eigenfeldt Corpus-based recombinant composition using a genetic algorithm
Savery et al. Shimon the robot film composer and deepscore: An lstm for generation of film scores based on visual analysis
KR102618683B1 (en) Apparatus for conversing style of background using analysis song lyrics and method thereof
Kostiuk et al. Multi-label emotion classification in music videos using ensembles of audio and video features
Byron et al. Hooks in popular music
Roig et al. A non-homogeneous beat-based harmony Markov model
KR102138248B1 (en) Method and apparatus for composing background music of online-chat
KR102227415B1 (en) System, device, and method to generate polyphonic music
Milon-Flores et al. Generating audiovisual summaries from literary works using emotion analysis
KR102490769B1 (en) Method and device for evaluating ballet movements based on ai using musical elements
Maloy The Children's Music Quotient: Quantifying the Childness of Music Recordings Made for Children
Ishizuka et al. Operetta songs generation system based on impressions of story scenes
Robertson Variations on a Theme by Paganini: Narrative archetypes in nineteenth-and twentieth-century theme-and-variation sets
Pachet Description-based design of melodies
Gajjar et al. RAAGANG—a proposed model of tutoring system for novice learners of Hindustani classical music
KR102149773B1 (en) Deep learning based compositional drum pattern generating apparatus and method therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right