KR20060063826A - The system and method that converts motion picture's caption into voice and sound effect - Google Patents

The system and method that converts motion picture's caption into voice and sound effect Download PDF

Info

Publication number
KR20060063826A
KR20060063826A KR1020060037917A KR20060037917A KR20060063826A KR 20060063826 A KR20060063826 A KR 20060063826A KR 1020060037917 A KR1020060037917 A KR 1020060037917A KR 20060037917 A KR20060037917 A KR 20060037917A KR 20060063826 A KR20060063826 A KR 20060063826A
Authority
KR
South Korea
Prior art keywords
file
sound
subtitles
subtitle
sampling
Prior art date
Application number
KR1020060037917A
Other languages
Korean (ko)
Inventor
서필정
Original Assignee
서필정
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서필정 filed Critical 서필정
Priority to KR1020060037917A priority Critical patent/KR20060063826A/en
Publication of KR20060063826A publication Critical patent/KR20060063826A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Studio Circuits (AREA)

Abstract

본 발명은 동영상의 자막을 음성 및 음향 효과로 구현할 수 있도록 변환하는 시스템 및 방법에 관한 것으로, 동영상에서 사용되는 자막을 분석하여 음성 및 음향 효과로 구현함으로써 자막을 표시하지 않고도 동영상을 감상할 수 있도록 하는데 목적이 있다. 자막을 사용할 경우 글을 읽는 속도가 느린 사람이 동영상의 내용을 쉽게 이해할 수 없고 자막의 내용이 동영상의 일부분을 가리는 등 문제가 발생하는데, 본 발명을 통해 이러한 문제점을 해결할 수 있도록 하였다. 본 발명에서는 자막을 음성 및 음향 효과로 변환하기 위해서 자막 처리부, 사운드 처리부, 샘플링 처리부로 구성되는 시스템을 통해 자막을 분석하는 단계, 사운드를 구현하는 단계, 샘플링 처리하는 단계를 거쳐 자막을 음성 및 음향 효과로 구현하고자 했다. 또한 본 발명에서는 자막을 음성 및 음향 효과로 변환하는 과정에서 샘플링 파일(sampling file)의 데이터를 바탕으로 특정 인물의 음성이나 음향 효과를 모방하여 구현할 수 있도록 사운드 분석 및 합성 기능을 더함으로써 실제로 성우의 목소리를 녹음하거나 음향 효과를 구현한 것처럼 재생할 수 있도록 함으로써 보다 실감나는 동영상 재생이 가능하게 했다. 본 발명에 의하면 동영상 재생 과정에서 발생하는 여러 문제점을 해결하고 멀티미디어 시대에 맞게 동영상 이용도를 높임으로써 관련 산업 분야와 기술의 발전에 기여하는 바가 크다고 할 수 있겠다.The present invention relates to a system and method for converting subtitles of a video to implement voice and sound effects, and to analyze the subtitles used in the video to implement the voice and sound effects so that the video can be viewed without displaying the subtitles. The purpose is to. When subtitles are used, a person with a slow reading speed cannot easily understand the contents of the video and the contents of the subtitles cover a part of the video. However, the present invention solves these problems. In the present invention, in order to convert the subtitles into voice and sound effects, the subtitles are analyzed through a system consisting of a subtitle processing unit, a sound processing unit, and a sampling processing unit, a sound is implemented, and a sampling process is performed. I wanted to implement it as an effect. In addition, in the present invention, in the process of converting subtitles into voice and sound effects, sound analysis and synthesis functions are added to simulate voice or sound effects of a specific person based on the data of a sampling file. By making it possible to record voices or play them as if they had implemented sound effects, it made the video more realistic. According to the present invention, it can be said that it contributes to the development of related industrial fields and technologies by solving various problems occurring in the process of playing video and increasing the use of video according to the multimedia era.

동영상, 자막, 음성, 음향 효과, 사운드, 대사, 더빙, 멀티미디어 Video, subtitles, voice, sound effects, sound, dialogue, dubbing, multimedia            

Description

동영상 자막을 음성 및 음향 효과로 구현하는 시스템 및 방법 {The system and method that converts motion picture's caption into voice and sound effect} The system and method that converts motion picture's caption into voice and sound effect}

도 1은 일반적인 동영상 파일의 재생 과정을 순서대로 보여주는 개념도,1 is a conceptual diagram illustrating a general video file playing process in order;

도 2는 가장 많이 쓰이는 일반적인 자막 파일의 구조와 태그 요소를 보여주는 구성도,2 is a block diagram showing the structure and tag elements of the most commonly used subtitle file,

도 3은 음성 및 음향 효과 등 음파의 구조와 특성을 보여주는 개념도,3 is a conceptual diagram showing the structure and characteristics of sound waves, such as speech and sound effects,

도 4는 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 구현하는 시스템의 일반적인 실시 예를 보여주는 기본 흐름도,4 is a basic flowchart illustrating a general embodiment of a system for implementing video captions using voice and sound effects according to the present invention;

도 5는 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 구현하는 시스템의 기본적인 시스템 구성도 및 시스템의 세부 모듈을 보여주는 상세 구성도,5 is a detailed configuration diagram showing a basic system configuration diagram and a detailed module of the system for implementing a video caption with voice and sound effects according to the present invention;

도 6은 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 구현하는 시스템에서 세부 모듈의 일반적인 동작을 보여주는 상세 흐름도,6 is a detailed flowchart illustrating a general operation of a detailed module in a system for implementing video captions using voice and sound effects according to the present invention;

도 7은 확장형 자막을 이용하는 방법에 대한 상세 흐름도,7 is a detailed flowchart of a method of using an extended subtitle;

도 8은 샘플링 처리부의 세부 모듈을 이용하는 방법에 대한 상세 흐름도,8 is a detailed flowchart of a method of using a detailed module of a sampling processor;

* 도면의 주요 부분에 대한 부호 설명 *Explanation of symbols on the main parts of the drawings

110 : 동영상 파일과 자막 파일110: video file and subtitle file

120 : 멀티미디어 플레이어(동영상 재생기)120: multimedia player (video player)

310 : 주파수310: frequency

320 : 진폭320: amplitude

510 : 자막 처리부 (상세도)510: caption processing unit (detailed view)

520 : 사운드 처리부 (상세도)520: sound processor (detailed view)

530 : 샘플링 처리부 (상세도)530: sampling processing unit (detailed view)

동영상(motion picture, moving picture)은 교육, 오락, 영화, 산업 등 다양한 분야에서 다양한 용도로 사용되는 멀티미디어 데이터로, IT 기술을 대표하는 종합 매체라고 할 수 있다. 일반적으로 사용자들은 멀티미디어 플레이어(multimedia player)라고 하는 동영상 재생용 소프트웨어(프로그램) 또는 동영상 재생기나 디빅(divx) 플레이어와 같은 하드웨어(장치)를 통해 PC, TV, PMP 등에서 동영상을 이용하거나 감상한다. 동영상 재생용 소프트웨어 및 하드웨어는 AVI, WMF, MOV, ASF, MPG 등 파일 확장자와 형식에 관계없이 다양한 동영상 파일을 재생하여 보여주고 재생이 불가능한 파일은 별도의 코덱(CODEC)을 설치하여 재생할 수 있다. 또한, 우리말로 제작되지 않은 동영상 파일의 경우에는 동영상 파일과 같은 이름에 확장자만 SMI 등으로 되어 있는 별도의 자막 파일을 이용하면 동영상과 자막을 함께 이용할 수 있다. 물론 자막 파일이 반드시 동영상 파일과 같은 이름을 가져야 하는 것은 아니고 다른 이름을 사용할 수도 있지만, 일반적으로는 같은 이름에 확장자만 다르게 지정하여 사용한다.Motion pictures and moving pictures are multimedia data used for various purposes in various fields such as education, entertainment, film, and industry, and can be regarded as a comprehensive medium representing IT technology. In general, users access or watch videos on a PC, TV, PMP, or the like through a software (program) for playing a video called a multimedia player, or hardware (device) such as a video player or a divx player. Video playback software and hardware can show and play various video files regardless of file extension and format such as AVI, WMF, MOV, ASF, MPG, etc. The unplayable files can be played by installing a separate codec. In addition, in the case of a video file that is not produced in Korean, the video and the subtitle can be used together by using a separate subtitle file having the same name as the video file and the SMI extension only. Of course, the subtitle file does not have to have the same name as the video file, but may have a different name, but in general, the same name is used with a different extension.

동영상의 자막을 이용하는 방법은 크게 두 가지로 나눌 수 있다. 먼저, 동영상을 재생하는 동시에 자막 파일을 읽어서 그 내용에 따라 시간에 맞춰 차례대로 자막을 표시하는 방법이다(자막 파일). 이렇게 하면 자막을 표시하는 글꼴의 크기나 색, 위치 등을 사용자 마음대로 바꿀 수 있다. 두 번째로는 자막 내용을 동영상 자체에 덧붙여 표시하는 방법이다(자막 입히기). 이렇게 하면 자막이 원래 동영상에 포함된 것처럼 자연스럽게 표시된다.There are two ways to use subtitles of video. First, a subtitle file is read while the video is played and the subtitles are displayed in sequence according to the contents (subtitle file). This allows you to change the size, color, position, etc. of the font displaying subtitles. The second method is to display the caption content in addition to the video itself (captioning). This will make the subtitles look as natural as they were in the original video.

그러나 동영상의 자막을 이용할 경우에는 몇 가지 문제가 발생하는데, 첫째 글을 읽는 속도가 느릴 경우 자막의 내용을 읽기도 전에 지나쳐버릴 수 있고, 둘째 자막의 내용이 동영상의 일부분을 가리는 경우가 발생하며, 셋째 눈이 나쁜 사람은 자막을 알아보기 어렵다는 점 등이다.However, there are some problems when using the subtitles of the video. If the first reading is slow, the subtitles may be overlooked before the subtitles are read, and the second subtitles cover part of the video. People with bad eyes are hard to recognize subtitles.

현재 사용되는 동영상 재생기나 멀티미디어 플레이어는 매우 다양하지만 상기와 같은 문제점을 해결하지 못하고 있다. 눈이 나쁜 경우에는 자막의 글꼴 크기를 키워서 알아보기 쉽게 할 수 있지만 이렇게 하면 자막이 동영상을 더 많이 가리게 된다. 재생 속도를 느리게 하면 글을 읽는 속도가 느린 사람도 동영상의 내용을 이해할 수 있겠지만 현실적으로 동영상 재생 및 감상이 어려워진다. 이러한 문제를 모두 해결하는 방법은 자막이 아니라 음성이나 음향 효과로 출력하여 동영상 재생과 동시에 그 내용을 이해할 수 있도록 해주는 것이지만 아직까지 이러한 기능을 제공하는 소프트웨어나 하드웨어는 존재하지 않는다.The video player or multimedia player currently used is very diverse, but does not solve the above problems. If you have bad eyes, you can increase the font size of the subtitles to make them easier to see, but the subtitles cover more of the video. Slower playback will make it easier for people with slower reading to understand the content of the video, but it will make it harder to play and watch videos. The solution to all of these problems is to output audio or sound effects, not subtitles, so that the contents can be understood at the same time as the video is played. However, there is no software or hardware that provides such functions.

자막 파일은 동영상의 재생 시간에 따라 적절한 시점에 문장이나 단어를 표시하도록 되어 있다. 그래서 자막 파일은 자막 내용과 출력 시간의 조합으로 이루어져 있다. 멀티미디어 플레이어나 동영상 재생기는 이러한 자막 파일의 내용을 읽고 분석하여 정해진 시간에 자막 내용을 동영상과 함께 출력하도록 되어 있다.The caption file is configured to display sentences or words at an appropriate time according to the playing time of the video. Thus, the subtitle file consists of a combination of subtitle content and output time. The multimedia player or video player reads and analyzes the contents of the subtitle file and outputs the subtitle contents together with the video at a predetermined time.

본 발명에서는 자막 파일의 내용을 분석하여 음성 및 음향 효과로 구현하고자 했다. 자막 내용을 음성 및 음향 효과로 구현하면 자막으로 인해 발생하는 문제점을 모두 해결할 수 있다. 또한 자막을 단순히 음성 및 음향 효과로 변환하는 외에도 특정 인물의 음성을 흉내내거나 음향 효과를 구현함으로써 실제로 성우가 연기하고 목소리를 녹음한 것처럼 보다 실감나는 동영상 재생이 가능하도록 부가 기능을 더함으로써 동영상 감상과 이용에 있어서 효과를 극대화하고자 했다.In the present invention, the contents of the subtitle file are analyzed to implement voice and sound effects. Implementing subtitle contents with voice and sound effects can solve all the problems caused by subtitles. In addition to simply converting subtitles to voice and sound effects, it also adds additional features to mimic the voices of specific people or to implement sound effects, allowing you to play videos more realistically, as if the voice actor was actually acting and recording your voice. In order to maximize the effect.

이러한 음성 및 음향 효과의 구현을 위해, 본 발명에서는 먼저 기준이 되는 샘플링 파일(sampling file)을 준비하고 이를 바탕으로 자막 파일의 내용을 분석하여 정해진 시간에 자막을 음성 및 음향 효과로 변환하여 동영상의 재생과 동시에 결과(변환된 음성 및 음향 효과)를 들려주도록 했다. 또한 동영상을 재생하지 않는 동안에도 별도의 샘플링 파일 관리 기능을 통해 미리 샘플링 파일을 준비해두고 나중에 동영상 재생에 이용할 수 있도록 하고 있다. 본 발명에서는 다양한 음성 및 음향 효과를 샘플링하는 모듈, 자막 파일의 내용을 분석하는 모듈, 분석된 자막의 내용에 따라 음성 및 음향 효과를 구현하는 모듈, 음성 및 음향 효과와 자막 처리를 돕는 모듈 등으로 구성되는 자막 처리 시스템 및 방법을 고안했다.In order to implement such a voice and sound effect, the present invention first prepares a sampling file as a reference, and analyzes the contents of the subtitle file based on this, and converts the subtitle into a voice and sound effect at a predetermined time. At the same time as the playback, the results (transformed voice and sound effects) were played back. In addition, a separate sampling file management function prepares a sampling file in advance so that it can be used later for video playback while the video is not playing. In the present invention, a module for sampling various voice and sound effects, a module for analyzing the contents of a subtitle file, a module for implementing voice and sound effects according to the analyzed subtitle contents, a module for processing voice and sound effects and subtitles, and the like. Designed subtitle processing system and method.

본 발명에 따라 이처럼 자막을 음성 및 음향 효과로 구현하기 위해서는 새로운 자막 파일이 필요하지 않다. 기본적으로 기존의 자막 파일만으로도 음성 및 음향 효과를 구현할 수 있도록 한 것이 본 발명의 취지이다. 그러나 다양한 음성 및 음향 효과를 구현하고 연출하기 위해서는 새로운 자막 파일이 필요한데, 본 발명에서는 자막 처리부, 사운드 처리부, 샘플링 처리부를 통해 기존 자막 파일을 새로운 확장형 자막 파일로 변환하는 것은 물론이고 샘플링 파일을 만들고 삭제하고 변경하는 등 보다 편리한 이용이 가능하도록 하였다.According to the present invention, a subtitle file is not necessary to implement subtitles as voice and sound effects. Basically, it is an object of the present invention to enable sound and sound effects to be implemented using only existing subtitle files. However, a new subtitle file is required to implement and direct various voice and sound effects. In the present invention, the subtitle processing unit, the sound processing unit, and the sampling processing unit convert the existing subtitle file into a new extended subtitle file as well as create and delete a sampling file. And make it more convenient to use.

또한, 일부 자막 파일은 잘못 제작된 탓에 한 줄의 자막이 오랫동안 표시되거나 하는 경우가 있는데, 본 발명에서는 이러한 경우를 분석하여 일정 시간 이상 길어지는 자막을 음성 및 음향 효과로 변환하여 일정한 시간만 출력되게 하는 등 잘못 제작된 자막 파일에 대해서도 가능한 문제없이 변환이 가능하도록 하였다.In addition, some subtitle files may display a line of subtitles for a long time due to incorrect production. In the present invention, the subtitle file is analyzed for such a long time, and the subtitle file is converted to voice and sound effects to output only a fixed time. Incorrectly made subtitle files can be converted without any possible problems.

자막 파일이 없는 경우에는 동영상에 내장된 음성 및 음향 효과를 분석하고 이를 추출하여 우리말로 변환해야 하는데 이는 본 발명의 목적과 범위를 벗어나는 것이므로 여기서는 다루지 않는다. 본 발명에서는 동영상과 자막 파일이 함께 사용되는 경우에 대해 자막의 내용을 음성 및 음향 효과로 변환하여 구현하는 경우를 대상으로 하고 있다.If there is no subtitle file, it is necessary to analyze the voice and sound effects embedded in the video, extract it, and convert it into Korean. In the present invention, the case where the video and the subtitle file are used together is intended to convert the contents of the subtitle into voice and sound effects.

본 발명은 동영상의 자막을 음성 및 음향 효과로 변환하는 시스템 및 방법에 관한 것으로, 기존의 멀티미디어 플레이어와 자막 파일을 그대로 이용할 수 있을 뿐 아니라 확장 기능을 새로운 멀티미디어 플레이어(소프트웨어 및 하드웨어)에 내장시키거나 확장형 자막 파일을 만들어 이용할 수도 있도록 하는데 목적을 두었다.The present invention relates to a system and method for converting subtitles of a video into voice and sound effects. The present invention can use existing multimedia players and subtitle files as they are, as well as embed extensions in new multimedia players (software and hardware). The goal is to create and use extended subtitle files.

먼저 도 1은 일반적인 동영상 파일의 재생 과정이다. 그림에서 A.AVI는 임의의 동영상 파일이고 자막 파일은 동영상 파일과 같은 이름이어야 하므로 A.SMI가 된다(110). 여기서 SMI는 자막 파일에 쓰이는 확장자이고, 자막 파일은 동영상 파일과 앞부분의 이름이 같고 뒷부분의 확장자만 SMI로 정해지는게 일반적이다. 본 발명에서 이용하는 자막 파일은 확장자가 SMI인 파일이 아니라 확장자에 관계없이 동영상에 쓰이는 일반적인 자막 파일을 집합적으로 의미한다. 또한 다양한 형식의 동영상 파일이 있지만 본 발명에서는 자막 파일을 이용하는 일반적인 동영상 파일 전체를 대상으로 한다. 자막 파일의 이름은 반드시 동영상 파일의 이름과 같을 필요가 없지만 편의를 위해 똑같은 이름과 서로 다른 확장자를 사용하는 것이 일반적이므로 이러한 사실을 기준으로 했다.First, Figure 1 is a general video file playback process. In the figure, A.AVI is an arbitrary video file and the subtitle file must be the same name as the video file, resulting in A.SMI (110). Here, SMI is an extension used for a subtitle file, and a subtitle file generally has the same name as a video file, and only an extension of the latter part is defined as SMI. The subtitle file used in the present invention collectively means a general subtitle file used for a video regardless of the extension, not a file having an SMI extension. In addition, although there are various types of video files, the present invention covers the entire video file using a subtitle file. The name of the subtitle file does not have to be the same as the name of the video file, but this is based on the fact that it is common to use the same name and different extensions for convenience.

멀티미디어 플레이어(120)는 동영상 파일과 자막 파일을 읽고 재생한다. 여기서 멀티미디어 플레이어는 사용자 PC에서 실행되는 소프트웨어(프로그램)이거나 별도의 하드웨어(장치)를 가리키고, 본 발명에서는 멀티미디어 플레이어의 형태에 관계없이 동영상 재생에 쓰이는 일반적인 소프트웨어나 하드웨어 장치를 집합적으로 포함하여 발명의 대상으로 하고 있다.The multimedia player 120 reads and plays a video file and a subtitle file. Herein, the multimedia player refers to software (program) or separate hardware (device) executed on a user PC. In the present invention, regardless of the form of the multimedia player, the multimedia player collectively includes general software or hardware devices used for video playback. It is targeted.

멀티미디어 플레이어는 동영상을 재생(141)하면서 자막 파일의 내용을 분석하여 정해진 시점에 자막을 함께 표시(142)한다. 이 과정에서 사용자가 자막의 글꼴 크기, 위치 등을 변경하고자 한다면 멀티미디어 플레이어의 기본적인 조정 기능을 이용하거나 또는 자막 파일을 에디터로 직접 수정할 수도 있다.The multimedia player analyzes the contents of the caption file while playing the video (141) and displays the caption together at a predetermined time point (142). In this process, if the user wants to change the font size, position, etc. of the subtitles, they can use the multimedia player's basic control functions or edit the subtitle file directly with the editor.

도 2는 방금 설명한 동영상 재생 과정에서 쓰이는 일반적인 자막 파일의 구조이다. 현재 많이 쓰이는 자막 파일은 HTML 파일의 형식과 비슷한데, 본 발명에서는 HTML 파일과 자막 파일의 형식에 대해 자세히 설명하지 않고 일반적인 자막 파일의 형식 중 필요한 내용에 대해서만 설명하고 있다.2 is a structure of a general subtitle file used in the video playback process just described. Currently used subtitle files are similar to the format of the HTML file, the present invention does not describe in detail the format of the HTML file and subtitle file, only the necessary content of the general subtitle file format is described.

HTML 파일은 중요한 명령어나 기능을 <와 >라는 기호로 구분하여 표시하고, 자막 파일은 파일의 맨 처음에 있는(210) <SAMI>라는 내용(태그, tag)으로 자막 파일임을 표시한다. 자막 파일에 있는 <HEAD>, <TITLE>, <BODY> 등의 태그는 일반적인 HTML 파일의 경우와 비슷하다. 자막 파일에서 한 가지 다른 점은 <STYLE>에 포함되는 내용이다. 이 태그에는 자막에 사용되는 글꼴, 자막의 위치를 지정하는 여백, 글꼴의 색, 문장의 정렬 위치 등을 나타내는 다양한 값이 들어간다.The HTML file indicates important commands or functions separated by <and> symbols, and the subtitle file is a subtitle file with a tag (tag) of <SAMI> (210) at the beginning of the file. The tags <HEAD>, <TITLE>, and <BODY> in the subtitle file are similar to those in a typical HTML file. One difference in subtitle files is what is included in <STYLE>. This tag contains various values that indicate the font used for the subtitle, the margin used to specify the location of the subtitle, the color of the font, and the position of the sentence alignment.

<BODY>는 자막 내용의 시작을 알리는 본문 표시 태그이다. 본문의 각 자막은 <SYNC start=0000>과 같은 내용(220)으로 시작하는데, 이는 동영상의 특정 시점에서 해당 자막 내용을 표시한다는 의미이다. 함께 사용되는 <P class=xxxx>는 <STYLE> 태그에 지정된 언어로 자막을 표시한다는 의미(230)이다.<BODY> is a text display tag indicating the start of the caption content. Each subtitle of the body starts with content 220 such as <SYNC start = 0000>, which means that the subtitle content is displayed at a specific time point in the video. <P class = xxxx> used together means that the subtitles are displayed in the language specified in the <STYLE> tag (230).

실제 표시되는 자막은 아무런 태그 없이 포함되어 있다. 한 줄을 내려쓰거나 띄어쓰는 경우는 일반적인 HTML 파일에서와 같이 <nbsp>나 <br> 태그로 구분하고 나머지 자막 내용은 파일에 있는 그대로 출력된다.The actual displayed subtitles are included without any tags. If a line is underwritten or spaced, it is separated by a <nbsp> or <br> tag as in a normal HTML file, and the rest of the subtitle content is output as is in the file.

도 3은 일반적인 사운드의 특성과 구조에 관한 그림이다. 음성과 음향 효과 등은 모두 음(소리, sound)의 일종으로, 본 발명에서는 이러한 것을 집합적으로 사운드라고 표현했다. 사람이 들을 수 있는 음은 공기의 떨림을 통해 전해지는데 이를 대개 파형(음파, sound wave)으로 표현한다. 일반적으로 사운드는 높낮이(pitch), 세기(크기, loudness), 음색(timbre) 등에 따라 구분되는 특징을 가진다. 사운드의 높낮이는 주파수에 의해 결정된다. 음파에서 일정한 시간에 반복되는 파형의 수가 주파수(진동수)인데, 주파수가 높은 음은 높게 들리고 주파수가 낮은 음은 낮게 들리는 것이다. 음의 세기는 진폭에 따라 달라진다. 음파에서 한 사이클을 지나는 파형의 높이가 진폭인데, 진폭이 크면 음이 커지고 진폭이 작으면 음이 작아지는 것이다.3 is a diagram of the characteristics and structure of a general sound. Voice and sound effects are all kinds of sounds, and in the present invention, these are collectively referred to as sound. The human audible sound is transmitted through the trembling of the air, which is usually expressed as a sound wave. In general, the sound is characterized by pitch, intensity (loudness), timbre (timbre) and the like. The height of the sound is determined by the frequency. The number of waveforms repeated at a given time in a sound wave is a frequency (frequency), where higher frequencies sound higher and lower frequencies sound lower. The loudness depends on the amplitude. The amplitude of a waveform that passes one cycle in a sound wave is amplitude, with larger amplitudes making it louder and smaller amplitudes making it smaller.

음색의 경우는 조금 복잡하다. 일반적으로 음파로 표현하는 음은 우리가 흔히 듣는 음이 아니다. 사람이 듣는 음은 다양한 소리의 결합이고 이는 단순한 파형이 아니라 복잡한 파형의 조합으로 구성되어 있고, 이를 복합음이라고 한다. 복합음에서 기준이 되는 음을 기음이라 하고, 이 기음의 정배수 주파수를 가진 음을 고조파나 배음이라고 하는데, 음색은 바로 이 배음의 상태에 따라 결정되는 것이다.The tone is a bit complicated. In general, sounds expressed in sound waves are not the sounds we often hear. The sound that a person hears is a combination of various sounds, and it is not a simple waveform but a combination of complex waveforms. In the compound sound, the reference sound is called the sound note, and the sound with the constant frequency of this sound is called harmonic or harmonic sound. The tone is determined by the state of this harmonic sound.

본 발명에서 이러한 사운드의 특징과 구성을 설명하는 이유는, 자막을 음성 및 음향 효과로 변환하는 과정에서 사운드의 특성을 살려 효과적인 결과를 만드는데 있어서 바로 이러한 특징이 이용되기 때문이다. 컴퓨터 등에 기록된 사운드의 파형을 적절히 변형하면 사운드 자체의 높낮이, 크기, 음색을 바꿀 수 있다. 본 발명에서는 바로 이러한 특징을 이용해 보다 효과적인 사운드 결과를 만들고자 한 것이다.The reason for describing the sound feature and configuration in the present invention is that such a feature is used to produce an effective result utilizing the sound characteristics in the process of converting subtitles to voice and sound effects. By properly modifying the waveform of sound recorded on a computer, etc., the height, magnitude, and tone of the sound itself can be changed. In the present invention, this feature is intended to produce more effective sound results.

도 3에서 알 수 있듯이 사운드의 높낮이는 주파수(310)에 따라 달라지고, 세기(크기)는 진폭(320)에 따라 달라지며, 도 3에 나타나있지는 않지만 음색은 다양한 음파로 구성되는 복합음에서 고조파의 배열과 크기에 따라 결정되는 것이다.본 발명에서는 이러한 음파의 특징을 살려 기본적인 음성 및 음향 효과의 높낮이, 세기, 음색을 조절하여 특정 인물의 음성을 구현하거나 흉내내고 다양한 음향 효과를 만들어낼 수 있도록 사운드 샘플링 기능을 함께 고안했다. 동영상 자체에 포함된 음성 및 음향 효과는 물론이고 멀티미디어 플레이어를 통해 구현되는 모든 음성 및 음향 효과는 이러한 음파 형태로 이루어져 있고 파일에 디지털화되어 저장되어 있으므로 별도의 샘플링 처리부를 통해 변조하는 것이 가능하고 그 결과 만들어진 음성 및 음향 효과를 재생하거나 저장하고 관리하는 것도 가능하다.As can be seen in Figure 3, the height of the sound depends on the frequency (310), the intensity (magnitude) depends on the amplitude (320), although not shown in Figure 3 the tone of the harmonics in the composite sound consisting of various sound waves In the present invention, by utilizing the characteristics of these sound waves, the sound, so that the sound of a specific person can be embodied or simulated by adjusting the height, intensity, and tone of basic voices and sound effects. Designed with a sampling function. All voices and sound effects implemented through the multimedia player, as well as the sound and sound effects included in the video itself, consist of these sound waves and are digitized and stored in a file, which can be modulated by a separate sampling processor. It is also possible to play, save and manage the created voice and sound effects.

도 4는 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 변환하는 시스템 및 방법의 기본 흐름도이다. 동영상 파일에 딸린 자막 파일이 있을 경우 본 발명에 의한 시스템을 거쳐 단계별 과정이 진행된다. 먼저, 멀티미디어 플레이어가 구동되어 동영상 파일의 재생이 시작되면(410) 자막 파일이 있는지 확인한다(420). 자막 파일이 없으면 자막을 음성 및 음향 효과로 변환하는 것이 불가능하므로 단순히 멀티미디어 플레이어의 기본적인 기능에 따라 진행한다(421). 자막 파일이 있다면 본 발명에 의한 시스템의 자막 처리부(510)에서 자막 파일의 내용을 분석하여 출력 시간과 자막 내용을 추출해낸다(430). 사운드 처리부(520)는 자막 처리부에서 전달된 값을 이용해서 자막 내용을 음성 및 음향 효과로 변환한다(440). 사운드 처리부는 정해진 샘플링 파일이 있을 경우에 해당 샘플링 파일을 사용하고 그렇지 않을 경우 기본적인 샘플링 파일을 사용한다. 사운드 처리부에서는 샘플링 파일의 사용, 변환된 음성 및 음향 효과 저장 등을 이행할 수 있고 동영상 재생 과정에서 자막을 동시에 사용하는 것도 가능하다. 멀티미디어 플레이어가 동영상을 재생할 때 사운드 처리부의 결과가 함께 출력되어 음성 및 음향 효과로 구현된다(450). 필요에 따라서는 이렇게 만들어진 음성 및 음향 효과를 별도의 파일로 저장하여 나중에 다시 사용할 수도 있다(460). 이렇게 해서 동영상 파일의 재생이 끝나면 본 발명에 의한 동영상 자막 변환 시스템에 의한 변환 과정도 끝난다(470). 본 발명에 의한 시스템의 각 구성 요소와 과정에 대해서는 도 5와 도 6, 도 7, 도 8에서 다시 설명한다.4 is a basic flowchart of a system and method for converting video captions into voice and sound effects according to the present invention. If there is a caption file attached to the video file, a step-by-step process is performed via the system according to the present invention. First, when the multimedia player is driven to start playing a video file (410), it is checked whether there is a subtitle file (420). If there is no subtitle file, it is impossible to convert the subtitle into voice and sound effects, and thus simply proceed according to the basic functions of the multimedia player (421). If there is a caption file, the caption processing unit 510 of the system according to the present invention analyzes the content of the caption file to extract the output time and the caption content (430). The sound processor 520 converts the caption content into voice and sound effects using the value transmitted from the caption processor 440. The sound processor uses the sampling file if there is a predetermined sampling file, and otherwise uses the basic sampling file. The sound processing unit can perform the use of sampling files, save the converted voices and sound effects, and use subtitles at the same time during video playback. When the multimedia player plays the video, the result of the sound processor is output together and implemented as voice and sound effects (450). If necessary, the voice and sound effects generated as described above may be stored as separate files for later use (460). In this way, when the playback of the video file is completed, the conversion process by the video subtitle conversion system according to the present invention is also finished (470). Each component and process of the system according to the present invention will be described again with reference to FIGS. 5, 6, 7, and 8.

도 5는 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 변환하는 시스템의 상세 구성도이다. 본 발명에 의한 시스템은 자막 처리부, 사운드 처리부, 샘플링 처리부로 구성된다. 본 발명은 동영상 자막을 음성 및 음향 효과로 변환하는 시스템과 방법에 대한 것이므로 자막 파일의 형식, 태그 요소, 사운드의 출력과 저장에 관한 기술적 상세함, 샘플링 처리 기술과 같은 상세한 기술적 설명은 생략한다.5 is a detailed configuration diagram of a system for converting video captions into voice and sound effects according to the present invention. The system according to the present invention comprises a caption processing unit, a sound processing unit, and a sampling processing unit. Since the present invention relates to a system and method for converting video captions into voice and sound effects, detailed technical descriptions such as the format of the caption file, tag elements, technical details of output and storage of sound, and sampling processing techniques are omitted.

먼저 자막 처리부(510)는 자막 파일의 내용을 분석하는 부분이다. 자막 읽기 모듈(511)은 동영상의 자막 파일을 읽어들인다. 동영상 파일에 자막 파일이 없을 경우 음성 및 음향 효과를 구현할 수 없지만, 반대로 동영상 파일이 없고 자막 파일만 있는 경우에는 음성 및 음향 효과를 구현하여 사운드 파일을 만들거나 샘플링 파일을 만들 수 있다. 본 발명에서는 자막 파일을 바탕으로 하여 음성 및 음향 효과를 구현하도록 했기 때문이다. 동영상에 포함된 사운드를 추출하여 우리말 음성 및 음향 효과로 변환하는 것도 가능하지만 다른 사운드와의 혼합이 발생하고 중간에 불필요한 잡음이 낄 수 있으며 사운드만으로 번역해야 하는 어려움이 있으므로 본 발명에서는 자막 파일 없이 동영상 파일만 존재하는 경우의 음성 및 음향 효과 변환과 구현에 대해서는 제외시켰다.First, the caption processing unit 510 analyzes the contents of the caption file. The subtitle reading module 511 reads a subtitle file of a video. If there is no subtitle file in the video file, voice and sound effects cannot be implemented. On the other hand, if there is no video file and only subtitle files, voice and sound effects can be implemented to create a sound file or a sampling file. This is because the present invention implements voice and sound effects based on the subtitle file. It is also possible to extract the sound contained in the video and convert it into Korean voice and sound effects, but because it can be mixed with other sounds, there may be unnecessary noise in the middle, and it is difficult to translate only the sound in the present invention. It excludes the conversion and implementation of speech and sound effects when only a file exists.

자막 읽기 모듈이 자막 파일을 읽어들이면 자막 분석 모듈(512)은 자막 파일의 내용을 분석한다. 상기 도 2에서 설명했듯이 자막 파일은 자막 내용과 출력 시간으로 이루어져 있다. 자막 분석 모듈은 이처럼 자막 내용과 출력 시간을 추출하여 자막과 시간 값으로 사운드 처리부로 넘겨주는 역할을 한다. 자막 출력 모듈(513)은 자막을 음성 및 음향 효과로 변환한 후에도 동영상에서 자막을 계속 출력할 것인지 설정하는 기능을 한다. 사용자가 자막을 계속보고자 한다면 이 모듈을 통해 자막을 표시하도록 설정할 수 있고, 자막을 숨기고자 한다면 자막을 표시하지 않도록 설정하면 된다.When the caption reading module reads the caption file, the caption analysis module 512 analyzes the contents of the caption file. As described above with reference to FIG. 2, the caption file includes a caption content and an output time. The caption analysis module extracts caption content and output time and passes the caption and time values to the sound processor. The subtitle output module 513 sets whether to continue outputting subtitles in the video even after the subtitles are converted into voice and sound effects. If the user wants to keep watching the subtitles, this module can be set to display the subtitles.

확장형 자막 파일은 동영상에 등장하는 사람 수, 성별 등 다양한 특징을 따로 표시해두고 이를 음성 및 음향 효과 구현 과정에 이용할 수 있다. 자막 관리 모듈(515)은 기본 자막 파일에 필요한 식별자를 추가하여 확장형 자막 파일을 만들어주고 자막 저장 모듈(514)은 만들어진 자막 파일을 저장한다. 확장형 자막 파일을 사용할 때, 자막 분석 모듈은 단순히 시간과 자막 값 외에도 음성 및 음향 효과 변환에 필요한 값을 따로 분석하고 추출하여 사운드 처리부로 넘겨준다.Expanded subtitle files can display various features such as the number of people and gender appearing in a video and use them in the process of implementing voice and sound effects. The subtitle management module 515 adds an identifier necessary for the basic subtitle file to create an extended subtitle file, and the subtitle storage module 514 stores the created subtitle file. When using an extended subtitle file, the subtitle analysis module simply analyzes, extracts and passes the necessary values for voice and sound effects conversion to the sound processor in addition to the time and subtitle values.

사운드 처리부(520)는 자막, 출력 시간, 사운드 식별자를 넘겨받아서 사운드를 구현하거나 저장하는 기능을 한다. 먼저 사운드 변환 모듈(521)은 사운드 변환 데이터베이스 모듈(522)에 저장된 기본값에 따라 자막을 발음에 맞는 사운드로 변환한다. 그리고 사운드 출력 모듈(523)은 그 결과를 출력한다. 변환 결과를 파일로 저장하는 기능은 사운드 저장 모듈(524)에서 이루어지고 별도의 샘플링 파일로 저장하는 것은 사운드 샘플링 저장 모듈(525)을 통해 이루어진다.The sound processor 520 implements or stores sound by receiving subtitles, output time, and sound identifiers. First, the sound conversion module 521 converts the subtitle into sound suitable for pronunciation according to a default value stored in the sound conversion database module 522. The sound output module 523 outputs the result. The function of storing the conversion result as a file is performed in the sound storage module 524, and the function of storing as a separate sampling file is performed by the sound sampling storage module 525.

마지막으로 샘플링 처리부(530)는 사운드 구현 과정에 사용되는 샘플링 파일을 관리하는 기능을 한다. 하나의 샘플링 파일을 기본값으로 정해두면 모든 사운드는 해당 샘플링 파일의 값에 따라 구현된다. 이 경우 모든 사운드는 같은 음색을 가진다. 그러나 이러한 단조로움을 피하고자 한다면 자막에 따라 식별자를 표시하여 성별, 높낮이, 장단 등으로 구분할 수 있다. 또한 특정 인물이나 유명인, 음향 효과를 흉내내어 비슷한 사운드를 구현하는 것도 가능하다.Finally, the sampling processor 530 manages a sampling file used in the sound implementation process. If you set one sampling file as the default, all sounds are implemented according to the value of that sampling file. In this case all sounds have the same tone. However, in order to avoid such monotony, the identifier may be displayed according to the subtitle and classified into gender, height, and length. It is also possible to simulate similar characters, celebrities, or sound effects.

샘플링 처리부(530)는 샘플링 정의 모듈과 샘플링 분석 모듈, 샘플링 변조 모듈로 이루어진다. 샘플링 분석 모듈(531)은 이미 만들어진 샘플링 파일의 내용을 읽어들여 보여주거나 분석한다. 샘플링 변조 모듈(532)은 샘플링 파일의 내용을 자유롭게 변형하기 위한 것으로 높낮이, 세기, 음색 등을 변경하여 기본 사운드를 바꾸는 것이다. 샘플링 정의 모듈(533)은 이렇게 만들어지고 변조된 샘플링 파일을 어떻게 이용할 것인지 지정하고 설정한다. 기본값으로 하나의 샘플링 파일을 사용하는지, 또는 역할에 따라서 여러 개의 샘플링 파일을 사용하는지 등 이 모든 동작을 관리하는 것이 바로 샘플링 정의 모듈이다.The sampling processor 530 includes a sampling definition module, a sampling analysis module, and a sampling modulation module. The sampling analysis module 531 reads and shows or analyzes the contents of the already created sampling file. The sampling modulation module 532 is for freely modifying the contents of the sampling file and changes the basic sound by changing the height, intensity, tone, and the like. The sampling definition module 533 specifies and sets how to use the thus created and modulated sampling file. The sampling definition module manages all of these actions, whether by default one sampling file or multiple sampling files depending on role.

동영상을 재생하지 않는 동안에도 샘플링 처리부만을 이용하여 샘플링 파일을 분석하고 변조하는 것이 가능하고 사운드 처리부의 사운드 저장 모듈을 통해 만든 사운드 파일을 샘플링 파일로 사용하는 것도 가능하다. 이렇게 만든 샘플링 파일은 동영상 재생 과정에서 사용된다.While not playing a video, it is possible to analyze and modulate the sampling file using only the sampling processor, or to use a sound file created by the sound storage module of the sound processor as the sampling file. The sample file created is used during video playback.

기존의 자막 파일은 성별, 사람 수, 음향 효과 등 사운드의 특징을 구분하는 내용을 포함하지 않으므로 이러한 경우에는 정해진 또는 기본적인 사운드만을 재생하고, 자막 파일에 사운드에 관한 특징이 포함된 경우에는 이를 자막 처리부에서 세밀하게 분석하여 정해진 다양한 사운드를 만들어내고 출력한다.Existing subtitle files do not include contents that distinguish the characteristics of sound, such as gender, number of people, sound effects, so in this case, only the predetermined or basic sound is played. If the subtitle file includes sound-related features, the subtitle processing unit Analyze in detail to produce and output a variety of sounds.

사운드 재생을 하는 동안 만들어진 사운드를 저장하여 나중에 다시 사용할 수 있고 이를 별도의 샘플링 처리부를 통해 실시간으로 또는 별도의 시간에 변형하여 사용자가 원하는 특정 인물이나 음향 효과를 구현할 수 있다. 사운드를 실시간으로 처리할 경우에는 사운드 변조를 위해 다시 자막 파일을 이용해야 한다.Sound created during sound playback can be saved and reused later, and it can be transformed in real time or at a separate time through a separate sampling processor to implement a specific person or sound effect desired by the user. When processing sound in real time, subtitle files must be used again for sound modulation.

도 6은 본 발명에 의한 동영상 자막을 음성 및 음향 효과로 변환하는 시스템의 상세 흐름도이다. 도 6은 가장 기본적인 흐름을 보여주는 상세 흐름도이다. 먼저 동영상을 재생하기 시작하면(611) 자막 파일이 있는지 확인(612)한다. 자막 파일이 없는 동영상 파일이라면 일반적인 동영상 재생을 진행한다(613).6 is a detailed flowchart of a system for converting video captions into voice and sound effects according to the present invention. 6 is a detailed flowchart showing the most basic flow. First, when a video starts to be played (611), it is checked whether a subtitle file exists (612). If the video file does not have a subtitle file, normal video playback is performed (613).

자막 파일이 있다면 자막을 그대로 출력할 것인지 확인(614)하는데 이 때 자막 처리부(510)의 자막 출력 모듈(513)이 사용된다. 자막을 출력하지 않겠다면(615) 자막을 읽고 사운드로 변환하지만 화면에는 출력하지 않도록 설정한다. 자막을 그대로 출력하겠다면(616) 정상적인 자막 내용이 출력된다.If there is a caption file, the caption output module 513 of the caption processing unit 510 is used. If the subtitles are not to be output (615), the subtitles are read and converted into a sound, but are not output to the screen. If the caption is to be output as it is (616), the normal caption contents are output.

다음으로 자막 처리부의 자막 읽기 모듈(511)을 통해 자막 파일을 읽고(617) 자막 분석 모듈(512)을 통해 내용을 분석(618)한다. 분석 결과는 사운드 처리부(520)로 전달되고 사운드 변환 모듈(521)은 사운드 변환 데이터베이스 모듈(522)에서 기본값을 이용하여 사운드로 변환(619)한다. 이렇게 만들어진 결과 값(사운드)은 사운드 저장 모듈(524)이나 사운드 샘플링 저장 모듈(525)을 통해 파일로 저장이 가능하다(621). 저장하지 않을 경우에는(623) 단순히 사운드 출력 모듈(523)을 통해 사운드를 출력하면 된다(622). 끝으로, 자막의 분석과 처리가 끝났는지 확인하여 자막을 계속 변환하든지(625) 또는 자막 분석과 변환을 마치고 동영상 재생을 마치는(626) 과정으로 진행된다.Next, the caption file is read through the caption reading module 511 of the caption processing unit 617 and the contents are analyzed 618 through the caption analysis module 512. The analysis result is transmitted to the sound processing unit 520, and the sound conversion module 521 converts the sound into a sound using the default value in the sound conversion database module 522 (619). The resulting value (sound) may be stored as a file through the sound storage module 524 or the sound sampling storage module 525 (S621). If not stored (623) simply output the sound through the sound output module 523 (622). Finally, the process of checking whether the analysis and processing of the subtitles is finished is to continue converting the subtitles (625) or after finishing subtitle analysis and conversion (626).

본 발명에 의하면 기존의 자막 파일 외에도 새로운 확장형 자막 파일을 사용할 수 있다. 이 경우가 도 7에 있는 확장형 자막 파일의 이용 과정을 보여주는 상세 흐름도에 나타나 있다.According to the present invention, a new extended subtitle file can be used in addition to the existing subtitle file. This case is shown in the detailed flowchart showing the use process of the extended subtitle file in FIG.

먼저 확장형 자막으로 변환할 것인지 결정(651)해야 한다. 확장형 자막을 이용하지 않겠다면(652) 일반적인 자막 파일을 그대로 사용하면 된다. 확장형 자막을 이용할 경우 자막 읽기 모듈(511)을 통해 자막 파일을 읽고(653) 자막 분석 모듈(512)을 통해 자막을 분석한다(654).First, it is necessary to determine whether to convert the extended subtitle (651). If you do not want to use the extended subtitles (652), just use the normal subtitle file. When using the extended caption, the caption file is read through the caption reading module 511 (653) and the caption is analyzed through the caption analysis module 512 (654).

다음으로, 동영상에 필요한 음성 및 음향 효과 샘플링 파일과 구성 요소에 따라 자막의 내용을 배치하고 연결하는 과정을 거친다(655). 예를 들어 두 사람의 주인공이 등장하는 동영상이라면 똑같은 목소리가 아니라 서로 다른 목소리를 내도록 전체 자막을 구분하여 인물1과 인물2에 각각 적합한 자막 내용을 연결하는 것이다. 이렇게 하고 나서 샘플링 파일을 연결해야(656)한다. 확장형 자막에서는 등장 인물을 구분해 두었지만 실제로 필요한 샘플링 파일을 제대로 연결하지 않으면 정상적인 결과가 나오지 않으므로 이 관리 과정과 연결 과정에 주의를 기울여야 한다. 끝으로 완성된 확장형 자막을 자막 저장 모듈(514)을 통해 저장하면 된다(657). 확장형 자막을 사용할 때에는 자막 읽기 모듈(511)이 기존의 자막 파일인지 확장형 자막 파일인지를 구분한다.Next, a process of arranging and connecting the contents of the subtitles according to the voice and sound effect sampling file and the components required for the video is performed (655). For example, if the video shows two main characters, it is not the same voice but different subtitles to have different voices and connect the subtitle contents suitable for person 1 and person 2 respectively. Doing so requires concatenating the sampling files (656). In the extended subtitles, the characters are separated, but if you do not properly connect the necessary sampling files, you will not get normal results. Finally, the completed extended subtitle may be stored through the subtitle storage module 514 (657). When using the extended subtitle, the subtitle reading module 511 distinguishes whether an existing subtitle file or an extended subtitle file.

도 8은 샘플링 파일을 다루는 샘플링 처리부의 기능에 대해 보여주는 상세 흐름도이다. 샘플링 처리부(530)를 이용하면 상기 확장형 자막에서 예를 든 것처럼 인물1과 인물2의 음성을 다르게 만들어 보다 실감나는 구현이 가능하게 만들 수 있다.8 is a detailed flowchart showing a function of a sampling processor that handles a sampling file. By using the sampling processor 530, the voices of person 1 and person 2 may be differently made, as illustrated in the extended subtitles, thereby enabling a more realistic implementation.

먼저 샘플링 파일 또는 사운드 파일을 읽어서(681) 분석해야 한다. 이 때 샘플링 분석 모듈(531)이 사용된다. 읽어들인 파일을 출력하여(682) 소리를 들어보고 원하는 대로 바꾸거나 변조할 수 있다(683). 이 과정에서 샘플링 변조 모듈(532)이 사용된다. 끝으로 변조 결과를 테스트하고(684) 다시 파일로 저장(685)한다. 샘플링 정의 모듈(533)은 이러한 값을 정의하는 역할을 한다.First, the sampling file or sound file must be read (681) and analyzed. At this time, the sampling analysis module 531 is used. The read file may be output (682) to listen to the sound and change or modulate as desired (683). In this process, the sampling modulation module 532 is used. Finally, the modulation results are tested (684) and saved back to file (685). The sampling definition module 533 serves to define these values.

본 발명에서는 동영상의 자막을 통해서 사운드를 만들어내므로 도 3에서 설명한 것처럼 일반적인 사운드의 특성을 변조하여 다양한 사운드를 구현하도록 샘플링 파일을 만들어낼 수가 있다. 동영상을 재생하지 않더라도 원하는 샘플링 파일을 미리 만들어 두거나 기존의 샘플링 파일을 바탕으로 해서 새로운 샘플링 파일을 만들면 나중에 동영상을 재생하는 과정에서 기본적인 사운드가 아닌 변조된 샘플링 파일을 통해 다양한 효과를 낼 수가 있다. 심지어 실제로 성우의 연기나 각종 효과음을 통해 더빙한 것과 같은 효과를 낼 수도 있다.In the present invention, since the sound is generated through the caption of the video, the sampling file can be generated to implement various sounds by modulating the characteristics of the general sound as described in FIG. Even if you don't play the video, you can make a sampling file in advance or create a new sampling file based on the existing sampling file. It can even be the same as dubbing through the voice actor's acting or various sound effects.

본 발명은 자막을 포함하는 동영상을 이용하는 과정에서 발생하는 불편함과 이로 인한 동영상 관련 산업의 한계를 극복하고자 고안된 사운드 구현 방법 및 시스템에 관한 것이므로 이에 관한 내용을 중심으로 기술하였다. 자막 파일을 수정하고 새로운 태그를 이용하는 등의 구체적 사항은 세부적 실무 사항이고 멀티미디어 플레이어에 본 발명의 내용을 적용하는 과정 역시 구현과 응용에 해당하며 샘플링 파일을 분석하고 만드는 과정 역시 하드웨어 및 소프트웨어 구현의 일반적 기술 과정이므로 본 발명에서는 자막의 내용을 음성과 음향 효과로 구현하는 방법과 시스템에 관해서만 다루고 있다.Since the present invention relates to a sound implementation method and system designed to overcome the inconvenience caused in the process of using a video including subtitles and the limitations of the video related industry due to this, it has been described based on the content thereof. The specific details such as modifying the subtitle file and using new tags are detailed practical matters, and the process of applying the present invention to the multimedia player is also an implementation and application. The process of analyzing and creating a sampling file is also common in hardware and software implementation. As a technical process, the present invention deals only with a method and a system for implementing subtitles with sound and sound effects.

본 발명은 멀티미디어 시대의 대표적인 데이터 파일인 동영상을 이용하는데 있어서 자막이 있는 동영상의 불편함을 해소하고자 고안된 것으로, 특히 글을 읽는 속도가 느려서 자막을 통해 동영상의 내용을 빨리 이해하지 못하거나 글씨를 알아보기 어려워 자막을 놓치거나 자막의 일부분이 동영상 화면을 가리는 등의 불편함을 모두 없앨 수 있는 획기적인 방법이다. 또한 시력이 나쁘거나 앞을 보지 못하는 사람들도 자막이 아닌 음성 및 소리를 통해 동영상을 이용할 수 있으므로 교육, 문화, 오락, 연예 산업 등 전 분야에 걸쳐 동영상의 활성화 및 이를 기반으로 하는 각 산업 분야에도 긍정적인 효과를 가져올 것으로 생각된다.The present invention is designed to relieve the inconvenience of subtitled video in using a video file, which is a representative data file of the multimedia era, in particular, the slow reading speed of the text does not quickly understand the content of the video through the subtitle or know the text It is a revolutionary way to eliminate all the inconvenience, such as missing subtitles or part of the subtitles that obscure the video screen. In addition, people with low vision or blind vision can access videos through voice and sound rather than subtitles, which is positive for the activation of videos across industries such as education, culture, entertainment, and entertainment industries. It is thought to bring effect.

특히 외국에서 제작된 교육용 자료나 영화 등을 국내용으로 만들기 위해 음성을 따로 녹음하고 동영상과 합치는 과정에서 발생할 수 있는 시간과 비용을 줄여서 간단히 자막을 완성한 후에 본 발명에 의한 방법과 시스템을 통해 다양한 사운드를 구현하면 되므로 관련 산업 분야에서 비용 절감과 원가 하락을 가져와 결국에는 영화, 교육 등 관련 산업 분야가 더 발전하고 사용자들에게 많이 보급될 수 있는 가능성을 가져올 것으로 예상된다.In particular, to make educational materials or movies produced in foreign countries for domestic use, it is possible to reduce the time and cost incurred in the process of recording the voice separately and combining them with the video, and then simply complete the subtitles. It is expected that this will result in cost reduction and cost reduction in related industries, which will eventually lead to the development of related industries such as film and education, and widespread distribution to users.

Claims (4)

동영상의 자막을 음성 및 음향 효과로 변환하는 시스템에 있어서,In a system for converting subtitles of video into voice and sound effects, 자막 파일을 읽어들이고 분석하여 자막과 시간을 추출하고 자막 출력 여부를 결정하고 확장형 자막을 만들고 저장하고 관리하는 모듈로 구성되는 자막 처리부; 자막의 내용에 따라 음성 및 음향 효과를 구현하고 출력하고 저장하는 모듈로 구성되는 사운드 처리부; 사운드 구현에 필요한 샘플링 파일을 분석하고 변조하고 관리하는 모듈로 구성되는 샘플링 처리부;A caption processing unit configured to read and analyze a caption file, extract captions and times, determine whether to output captions, and create, store, and manage extended captions; A sound processor comprising a module for implementing, outputting, and storing voice and sound effects according to the contents of the subtitles; A sampling processor comprising a module for analyzing, modulating, and managing a sampling file required for sound implementation; 로 구성되는 동영상의 자막을 음성 및 음향 효과로 변환하는 시스템에서,In a system that converts subtitles of videos consisting of voice and sound effects, 상기 자막 처리부는 다시,The subtitle processing unit again, 자막 파일을 읽어들이고 기본 자막 파일과 확장형 자막 파일을 구분하는 자막 읽기 모듈(511); 자막 파일의 내용을 분석하여 사운드 변환을 위해 준비하는 자막 분석 모듈(512); 자막 파일의 내용을 그대로 출력할 것인지 또는 자막을 숨길 것인지 설정하는 자막 출력 모듈(513); 확장형 자막 파일을 만들었을 때 파일로 저장하여 이용하게 해주는 자막 저장 모듈(514); 기본 자막 파일과 확장형 자막 파일의 내용을 살펴보고 확장형 자막을 만들 수 있도록 자막 생성, 수정, 삭제 등의 관리 기능을 제공하는 자막 관리 모듈(515);A subtitle reading module 511 for reading a subtitle file and distinguishing a basic subtitle file from an extended subtitle file; A caption analysis module 512 for analyzing the contents of the caption file and preparing for sound conversion; A caption output module 513 for setting whether to output the content of the caption file as it is or to hide the caption; A subtitle storage module 514 for storing and using the extended subtitle file as a file when the extended subtitle file is created; A subtitle management module 515 which examines the contents of the main subtitle file and the extended subtitle file and provides management functions such as subtitle creation, modification, and deletion so as to create an extended subtitle; 로 구성되는 자막 처리부,Subtitle processing unit consisting of, 상기 사운드 처리부(520)는 다시,The sound processor 520 again, 분석된 자막 파일의 내용을 사운드로 변환해주는 사운드 변환 모듈(521); 자막을 사운드로 변환하는데 필요한 기본적인 발음 값과 사운드 구현 데이터를 저장하는 사운드 변환 데이터베이스 모듈(522); 자막을 사운드로 변환한 결과 값을 출력해주는 사운드 출력 모듈(523); 변환된 사운드를 파일로 저장하게 해주는 사운드 저장 모듈(524); 변환된 사운드를 샘플링 파일로 저장하여 이용할 수 있도록 해주는 사운드 샘플링 저장 모듈(525);A sound conversion module 521 for converting the contents of the analyzed subtitle file into sound; A sound conversion database module 522 that stores basic pronunciation values and sound implementation data necessary for converting subtitles into sounds; A sound output module 523 for outputting a result value of converting subtitles into sounds; A sound storage module 524 for allowing the converted sound to be saved as a file; A sound sampling storage module 525 for storing and converting the converted sound into a sampling file; 로 구성되는 사운드 처리부,Sound processing unit, 상기 샘플링 처리부(530)는 다시,The sampling processor 530 again, 샘플링 파일을 읽어들이고 그 내용을 살펴보고 이용할 수 있도록 분석해서 보여주는 샘플링 분석 모듈(531); 샘플링 파일의 내용을 원하는 대로 수정 및 변경하여 사용하거나 테스트해주는 샘플링 변조 모듈(532); 샘플링 파일의 내용을 설정하여 새로운 샘플링 파일로 저장하고 이용하게 해주는 샘플링 정의 모듈(533);A sampling analysis module 531 which reads the sampling file, analyzes the contents of the sampling file, and analyzes the contents for use; A sampling modulation module 532 for modifying or changing the contents of the sampling file as desired and using or testing the sampling file; A sampling definition module 533 for setting the contents of the sampling file to store and use as a new sampling file; 로 구성되는 샘플링 처리부,Sampling processing section, 상기 자막 처리부, 사운드 처리부, 샘플링 처리부로 구성되는 동영상의 자막을 음성 및 음향 효과로 변환하는 시스템.And a subtitle of the video including the subtitle processor, the sound processor, and the sampling processor. 동영상의 자막을 음성 및 음향 효과로 변환하는 방법에 있어서,In the method of converting the subtitles of the video to voice and sound effects, 동영상을 재생하는 단계(611); 자막 파일을 확인하는 단계(612); 자막 파일이 없으면 정상적으로 동영상을 처리하는 단계(613); 자막 파일이 있으면 자막 출력 여부를 결정하는 단계(614); 자막을 출력하지 않도록 결정하면 자막 제거 상태를 설정하는 단계(615); 자막을 출력하도록 결정하면 자막을 정상적으로 출력하도록 설정하는 단계(616); 자막 파일을 읽는 단계(616); 자막 파일의 내용을 분석하는 단계(618); 분석 결과를 사운드로 변환하는 단계(619); 변환 결과를 저장할 것인지 결정하는 단계(620); 변환 결과를 저장하지 않으면 사운드를 출력하는 단계(623); 변환 결과 파일 및 샘플링 파일을 저장하는 단계(621); 사운드를 출력하는 단계(622); 자막이 끝났는지 확인하는 단계(624); 계속해서 자막을 읽어들이고 분석하는 단계(625); 자막이 끝나면 동영상 재생을 마치는 단계(626);Playing the video (611); Identifying a subtitle file (612); If there is no subtitle file, processing the video normally (613); Determining whether to output subtitles when there is a subtitle file (614); Setting a subtitle removal state when it is determined not to output the subtitles; Setting to output subtitles normally when it is determined to output the subtitles (616); Reading a subtitle file (616); Analyzing the contents of the subtitle file (618); Converting the analysis result into sound (619); Determining (620) whether to store the conversion result; Outputting a sound if the conversion result is not stored (623); Storing (621) the conversion result file and the sampling file; Outputting a sound (622); Checking 624 that the subtitle is over; Continuing to read and analyze the subtitles (625); When the subtitle ends, ending the video playback (626); 확장형 자막을 이용하는 방법에 있어서,In a method using extended subtitles, 확장형 자막을 이용하는지 결정하는 단계(615); 확장형 자막을 이용하지 않을 경우 정상적으로 처리하는 단계(652); 확장형 자막을 이용할 경우 자막을 읽어 들이는 단계(653); 자막 파일을 분석하는 단계(654); 자막의 내용을 동영상에 적합하도록 수정하고 구성 요소에 맞게 배치하는 관리 단계(655); 샘플링 파일을 연결하는 단계(656); 완성된 확장형 자막을 저장하는 단계(657);Determining 615 whether to use extended subtitles; If the extended subtitles are not used (step 652); Reading the subtitles when using the extended subtitles (653); Analyzing 654 a caption file; A management step 655 of modifying the contents of the subtitles so as to be suitable for the video and arranging them according to components; Concatenating the sampling files (656); Storing the completed extended subtitle (657); 로 구성되는 확장형 자막을 이용하는 방법,How to use extended subtitles, 샘플링 파일을 이용하는 방법에 있어서,In the method using a sampling file, 사운드 파일 및 샘플링 파일을 읽어 들이는 단계(681); 분석 결과를 출력하는 단계(682); 결과를 분석하고 변조하는 단계(683); 결과를 테스트하는 단계(684); 결과가 마음에 들지 않을 경우 반복하는 단계(683); 결과가 마음에 들 경우 테스트를 마치고 완성된 파일을 저장하는 단계(685);Reading 681 a sound file and a sampling file; Outputting an analysis result 682; Analyzing and modulating the results 683; Testing 684 the results; Repeating 683 if the result is unsatisfactory; If the result is satisfactory, finishing the test and saving the completed file (685); 로 구성되는 샘플링 파일을 이용하는 방법,Using a sampling file consisting of: 상기 동영상 파일의 자막을 음성 및 음향 효과로 변환하는 방법, 확장형 자막을 이용하는 방법, 샘플링 파일을 이용하는 방법으로 구성되는 동영상 파일의 자막을 음성 및 음향 효과로 변환하는 방법.A method of converting the subtitles of the video file to the voice and sound effects consisting of a method for converting the subtitles of the video file to voice and sound effects, a method using extended subtitles, a method using a sampling file. 상기 2항의 방법으로 이루어지는 상기 1항의 시스템에서, 멀티미디어 플레이어는 모양과 형태에 관계없이 하드웨어 또는 소프트웨어로 구동되는, 동영상 자막을 음성 및 음향 효과로 변환하는 시스템.The system of claim 1, comprising the method of claim 2, wherein the multimedia player is driven by hardware or software, regardless of shape and form, to convert video subtitles into voice and sound effects. 상기 2항의 방법으로 이루어지는 상기 1항의 시스템을 멀티미디어 플레이어에 부착하는 소프트웨어 및 하드웨어 모듈 형태로 실시하는, 동영상의 자막을 음성 및 음향 효과로 변환하는 시스템. A system for converting subtitles of a video into voice and sound effects, which is implemented in the form of software and hardware modules for attaching the system of claim 1 to the multimedia player.
KR1020060037917A 2006-04-27 2006-04-27 The system and method that converts motion picture's caption into voice and sound effect KR20060063826A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060037917A KR20060063826A (en) 2006-04-27 2006-04-27 The system and method that converts motion picture's caption into voice and sound effect

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060037917A KR20060063826A (en) 2006-04-27 2006-04-27 The system and method that converts motion picture's caption into voice and sound effect

Publications (1)

Publication Number Publication Date
KR20060063826A true KR20060063826A (en) 2006-06-12

Family

ID=37159629

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060037917A KR20060063826A (en) 2006-04-27 2006-04-27 The system and method that converts motion picture's caption into voice and sound effect

Country Status (1)

Country Link
KR (1) KR20060063826A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264777B2 (en) 2012-10-30 2016-02-16 Kt Corporation Control video content play speed

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264777B2 (en) 2012-10-30 2016-02-16 Kt Corporation Control video content play speed

Similar Documents

Publication Publication Date Title
Parekh Principles of multimedia
US20200286396A1 (en) Following teaching system having voice evaluation function
O’Halloran et al. Multimodal text analysis
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US20180226101A1 (en) Methods and systems for interactive multimedia creation
US20130246063A1 (en) System and Methods for Providing Animated Video Content with a Spoken Language Segment
JP2006514322A (en) Video-based language learning system
KR20100054078A (en) Animation authoring tool and authoring method through storyboard
WO2018120819A1 (en) Method and device for producing presentation
WO2018120821A1 (en) Method and device for producing presentation
WO2018120820A1 (en) Presentation production method and apparatus
JP2013161205A5 (en)
CN111726693A (en) Audio and video playing method, device, equipment and medium
KR20060063826A (en) The system and method that converts motion picture&#39;s caption into voice and sound effect
Bennett et al. Making chalk and talk accessible
KR20230018586A (en) System and method for realizing all or part of video, image, speech, BGM in cyber space according to input scenario
Spont Analyzing mass media through video art education: Popular pedagogy and social critique in the work of Candice Breitz
Oujezdský Creation of educational video tutorials and their use in education
KR20100071426A (en) Dictation learning method and apparatus for foreign language listening training
US11562663B1 (en) Production and presentation of aural cloze material
Mora Creation of educational videos: tools and tips
KR20020023628A (en) Method and system for searching/editing a movie script and the internet service system therefor
TWI724518B (en) System for simulating displaying video according to storyboard to generate multimedia resume and method thereof
KR102528293B1 (en) Integration System for supporting foreign language Teaching and Learning using Artificial Intelligence Technology and method thereof
KR20170052084A (en) Apparatus and method for learning foreign language speaking

Legal Events

Date Code Title Description
G15R Request for early opening
WITN Withdrawal due to no request for examination