KR101713626B1 - Tagging system and method for sound data - Google Patents

Tagging system and method for sound data Download PDF

Info

Publication number
KR101713626B1
KR101713626B1 KR1020150014143A KR20150014143A KR101713626B1 KR 101713626 B1 KR101713626 B1 KR 101713626B1 KR 1020150014143 A KR1020150014143 A KR 1020150014143A KR 20150014143 A KR20150014143 A KR 20150014143A KR 101713626 B1 KR101713626 B1 KR 101713626B1
Authority
KR
South Korea
Prior art keywords
tagging
tag
data
point
voice data
Prior art date
Application number
KR1020150014143A
Other languages
Korean (ko)
Other versions
KR20160093763A (en
Inventor
김세웅
Original Assignee
주식회사 마이티웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마이티웍스 filed Critical 주식회사 마이티웍스
Priority to KR1020150014143A priority Critical patent/KR101713626B1/en
Publication of KR20160093763A publication Critical patent/KR20160093763A/en
Application granted granted Critical
Publication of KR101713626B1 publication Critical patent/KR101713626B1/en

Links

Images

Classifications

    • G06F17/30752
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Telephone Function (AREA)

Abstract

음성 데이터를 위한 태깅 시스템 및 그 방법이 개시된다. 본 발명의 일 측면에 따르면, 소정의 음성 데이터의 태깅 시점을 특정하는 특정모듈, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출모듈, 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성하는 음성인식모듈 및 상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성하는 태그생성모듈을 포함하는 음성 데이터를 위한 태깅 시스템이 제공된다.A tagging system and method for voice data is disclosed. According to an aspect of the present invention, there is provided a voice recognition method including: a specific module for specifying a tagging time point of predetermined voice data; a data of a voice recognition section including at least one of a certain section before the tagging time, A speech recognition module for generating text data by voice recognition of the extracted data of the recognition section, and a tag generating module for generating a tag corresponding to the tagging time, A tagging system for data is provided.

Description

음성 데이터를 위한 태깅 시스템 및 그 방법{Tagging system and method for sound data}[0001] Tagging system and method for sound data [0002]

본 발명은 음성 데이터를 위한 태깅 시스템 및 그 방법에 관한 것이다. 보다 상세하게는 본 발명은 음성 데이터의 특정 시점에 태그를 부여하는 경우 해당 태그의 내용을 인식할 수 있는 태그 정보를 자동으로 생성할 수 있는 음성 데이터를 위한 태깅 시스템 및 그 방법에 관한 것이다.
The present invention relates to a tagging system and method for voice data. More particularly, the present invention relates to a tagging system and method for voice data capable of automatically generating tag information capable of recognizing contents of a tag when a tag is assigned at a specific time point of voice data.

최근 모바일 분야의 발달과 대중화로 인해, 많은 수의 사람들이 스마트폰을 소지하고 있으며, 최근의 스마트폰은 단순한 통화기능 이외에도 다양한 기능을 제공하고 있다. 그 중 하나로 음성 녹음 기능을 들 수 있는데, 스마트폰의 사용자들은 자신이 소지하고 있는 스마트폰을 이용하여 회의나 대화 내용을 녹음하는 것으로 회의나 대화 내용을 기록하는 것을 대신하는 경우도 많다.Due to the development and popularization of the mobile field in recent years, a large number of people have smartphones, and recent smartphones provide various functions in addition to simple call functions. One of them is voice recording function. Smartphone users often use the smart phone they own to record meetings or conversations, which is often used instead of recording meetings or conversations.

최근 출시되는 스마트폰은 녹음 기능을 지원하는 자체적인 애플리케이션을 빌트인으로 설치하고 있는 경우가 많으며, 이 외에도 녹음 기능을 지원하는 수많은 애플리케이션이 출시되고 있는 상황이다.Recently, smartphones often have built-in applications that support their recording functions. In addition, there are a number of applications that support recording functions.

이러한 음성 녹음의 애플리케이션 중 일부는 태그 기능을 지원하기도 한다. 태깅 기능은 녹음된 음성 데이터의 특정 시점에 POI(Point of Interest) 태그를 부여하는 기능을 의미한다. 태그란 어떤 정보에 메타데이터로 부여된 키워드 혹은 디지털 정보를 의미한다. 이러한 음성 녹음 애플리케이션에서는 태그를 부여하면서 해당 태그를 추후에 식별하기 위한 정보를 입력하게 되는데, 종래에는 스마트폰에 구비된 입력수단(예를 들면, 키패드 등)를 통해 텍스트 데이터를 입력하는 방식이 이용되고 있었다. 그러나, 이러한 방식을 이용하는 경우 입력자가 직접 태그 정보를 입력하여야 하므로 회의나 대화에 집중하지 못하게 되며, 원활한 진행에 방해가 되는 경우도 있다.Some of these voice recording applications also support tagging. The tagging function means a function of assigning a POI (Point of Interest) tag at a specific time point of the recorded voice data. A tag is a keyword or digital information given as metadata to certain information. In such a voice recording application, information for identifying a tag at a later time is input while assigning a tag. Conventionally, a method of inputting text data through an input means (for example, a keypad or the like) . However, when this method is used, the input of the tag information must be input by the inputting person, so that it is impossible to concentrate on the meeting or the conversation, which may interfere with smooth progress.

이를 보완하기 위해, 키패드 입력 대신 음성을 통해 태그 정보를 입력하는 방식도 등장하고 있으나, 이러한 음성 입력 방식 역시 사용자가 직접 육성으로 태그 정보를 입력해야 하므로 상술한 문제점을 근본적으로 보완하기에는 실효성이 크지 않다.
In order to compensate for this, there is a method of inputting tag information through voice instead of keypad input. However, such a voice input method also requires a user to directly input tag information by upbringing, which is not effective enough to fundamentally overcome the above- .

공개특허 제10-2013-0090012호Published Japanese Patent Application No. 10-2013-0090012

본 발명이 해결하고자 하는 기술적 과제는 음성 데이터의 특정 시점에 태그를 부여하는 경우 해당 태그의 내용을 인식할 수 있는 태그 정보를 자동으로 생성할 수 있는 음성 데이터를 위한 태깅 시스템을 제공하는 것이다.
SUMMARY OF THE INVENTION It is an object of the present invention to provide a tagging system for voice data capable of automatically generating tag information capable of recognizing contents of a tag when a tag is given at a specific point in time of voice data.

본 발명의 일 측면에 따르면, 소정의 음성 데이터의 태깅 시점을 특정하는 특정모듈, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출모듈, 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성하는 음성인식모듈 및 상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성하는 태그생성모듈을 포함하는 음성 데이터를 위한 태깅 시스템이 제공된다.According to an aspect of the present invention, there is provided a voice recognition method including: a specific module for specifying a tagging time point of predetermined voice data; a data of a voice recognition section including at least one of a certain section before the tagging time, A speech recognition module for generating text data by voice recognition of the extracted data of the recognition section, and a tag generating module for generating a tag corresponding to the tagging time, A tagging system for data is provided.

일 실시예에서, 상기 특정모듈은, 상기 음성 데이터의 재생 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정할 수 있다.In one embodiment, when the tag addition command is input from the user during the reproduction of the voice data, the specific module may specify the reproduction time point of the voice data when the tag addition command is input as the tagging time point .

일 실시예에서, 상기 특정모듈은, 상기 음성 데이터의 녹음 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정할 수 있다.In one embodiment, when the tag addition command is input from the user during the recording of the voice data, the specific module may specify the recording time of the voice data at the time of inputting the tag addition command as the tagging time .

일 실시예에서, 상기 음성 데이터를 위한 태깅 시스템은, 생성된 상기 태그를 디스플레이하는 디스플레이모듈 및 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생모듈을 더 포함할 수 있다.In one embodiment, the tagging system for voice data includes a display module for displaying the generated tag, and, when the tag is selected, determining the voice data based on the tagging time corresponding to the tag or the tagging time point And a playback module for playing back the content from a playback point of time.

일 실시예에서, 상기 디스플레이모듈은, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이할 수 있다.In one embodiment, the display module may display at least a part of the text data included in the tag as the title or contents of the tag.

일 실시예에서, 상기 디스플레이모듈은, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 차례대로 일정 길이만큼 이동하면서 디스플레이할 수 있다.In one embodiment, the display module may display at least a part of the text data included in the tag by moving a predetermined length in sequence.

본 발명의 다른 일 측면에 따르면, 소정의 음성 데이터의 태깅 시점을 특정하는 특정모듈, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출모듈, 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성하는 음성인식모듈 및 상기 태깅 시점에 상응하는 태그를 디스플레이하는 디스플레이모듈 및 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생모듈을 포함하되, 상기 디스플레이모듈은, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 음성 데이터를 위한 태깅 시스템이 제공된다.According to another aspect of the present invention, there is provided a speech recognition apparatus comprising: a specific module for specifying a tagging time point of predetermined speech data; a recognition section including at least one of a predetermined section before the tagging point, A display module for displaying a tag corresponding to the tagging point of time; and a display module for displaying the tag corresponding to the voice data when the tag is selected, Wherein the display module displays at least a part of the text data included in the tag as a title or content of the tag, Tagging for voice data to display The system is provided.

본 발명의 다른 일 측면에 따르면, 음성 데이터를 위한 태깅 시스템이, 소정의 음성 데이터의 태깅 시점을 특정하는 특정단계, 상기 음성 데이터를 위한 태깅 시스템이, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출단계, 음성 데이터를 위한 태깅 시스템이, 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성하는 음성인식단계 및 음성 데이터를 위한 태깅 시스템이, 상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성하는 태그생성단계를 포함하는 음성 데이터를 위한 태깅 방법이 제공된다.According to another aspect of the present invention, there is provided a tagging system for voice data, comprising: a specifying step of specifying a tagging point of predetermined voice data; a tagging system for voice data; A tagging system for voice data includes a voice recognition module for recognizing voice data of the extracted voice recognition area and generating voice data for voice recognition And a tag generating step of generating a tag corresponding to the tagging time point including the text data, wherein the tagging system for the voice data and the voice data includes the text data.

일 실시예에서, 상기 특정단계는, 상기 음성 데이터의 재생 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정하는 단계를 포함할 수 있다.In one embodiment, the specifying step may include the step of specifying, when the tag addition command is input from the user during the reproduction of the voice data, the reproduction time point of the voice data at the time of inputting the tag addition command as the tagging time point .

일 실시예에서, 상기 특정단계는, 상기 음성 데이터의 녹음 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정하는 단계를 포함할 수 있다.In one embodiment, the specifying step may include the step of, when the tag addition command is inputted from the user during the recording of the voice data, specifying the recording time of the voice data at the time of inputting the tag addition command as the tagging time .

일 실시예에서, 상기 음성 데이터를 위한 태깅 방법은, 상기 음성 데이터를 위한 태깅 시스템이, 생성된 상기 태그를 디스플레이하는 디스플레이단계 및 음성 데이터를 위한 태깅 시스템이, 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생단계를 더 포함할 수 있다.In one embodiment, the tagging method for the voice data is characterized in that the tagging system for the voice data comprises a display step of displaying the generated tag and a tagging system for voice data, And reproducing the data from a tagging point corresponding to the tag or a reproducing point determined based on the tagging point.

일 실시예에서, 상기 디스플레이단계는, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 단계를 포함할 수 있다.In one embodiment, the displaying step may include displaying at least a part of the text data included in the tag as the title or contents of the tag.

일 실시예에서, 상기 디스플레이단계는, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 차례대로 일정 길이만큼 이동하면서 디스플레이하는 단계를 포함할 수 있다.In one embodiment, the displaying step may include displaying at least a part of the text data included in the tag by moving a predetermined length in sequence.

본 발명의 다른 일 측면에 따르면, 음성 데이터를 위한 태깅 시스템이, 소정의 음성 데이터의 태깅 시점을 특정하는 특정단계, 상기 음성 데이터를 위한 태깅 시스템이, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출단계, 상기 음성 데이터를 위한 태깅 시스템이, 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성하는 음성인식단계, 상기 음성 데이터를 위한 태깅 시스템이, 상기 태깅 시점에 상응하는 태그를 디스플레이하는 디스플레이단계 및 상기 음성 데이터를 위한 태깅 시스템이, 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생단계를 포함하되, 상기 디스플레이단계는, 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 음성 데이터를 위한 태깅 방법이 제공된다.According to another aspect of the present invention, there is provided a tagging system for voice data, comprising: a specifying step of specifying a tagging point of predetermined voice data; a tagging system for voice data; A tagging system for extracting the data of the recognition interval including at least one of a predetermined interval after the tagging time and a predetermined interval after the tagging time, A step of displaying a tag corresponding to the tagging point, and a tagging system for the voice data, when the tag is selected, converting the voice data into a voice corresponding to the tag At the time of reproduction determined based on the time of tagging or the time of tagging Wherein the displaying step displays at least a part of the text data included in the tag as a title or content of the tag.

본 발명의 다른 일 측면에 따르면, 데이터 처리장치에 설치되며 상술한 방법을 수행하기 위해 기록매체에 저장된 컴퓨터 프로그램이 제공된다.According to another aspect of the present invention, there is provided a computer program installed in a data processing apparatus and stored in a recording medium for performing the above-described method.

본 발명의 다른 일 측면에 따르면, 음성 데이터를 위한 태깅 시스템으로서, 프로세서 및 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 음성 데이터를 위한 태깅 시스템이, 상술한 방법을 수행하도록 하는 음성 데이터를 위한 태깅 시스템이 제공된다.
According to another aspect of the present invention there is provided a tagging system for speech data comprising a processor and a memory for storing a computer program executed by the processor, wherein the computer program, when executed by the processor, A tagging system for voice data is provided that allows the tagging system to perform the above-described method.

본 발명의 기술적 사상에 따르면, 사용자가 관심을 가지거나 중요하다고 여기는 음성 데이터의 특정 지점에 용이하게 태그를 부여할 수 있도록 할 수 있으며, 추후 태그가 선택되는 경우 해당 태그에 상응하는 시점에서부터 음성 데이터가 재생되도록 함으로써 사용자가 관심을 가지거나 중요하다고 여기는 음성 데이터의 특정 지점을 용이하게 찾아가도록 할 수 있다. 또한, 태그가 선택될 경우에 재생되는 내용을 해당 태그의 제목 또는 내용으로서 제공하므로 사용자는 태그를 선택할 경우에 재생되는 음성이 어떠한 내용인지를 직관적으로 파악할 수 있는 효과가 있다.
According to the technical idea of the present invention, it is possible to easily assign a tag to a specific point of voice data that the user considers to be interested or important, and when a tag is selected later, So that a user can easily find a specific point of voice data that he or she considers to be of interest or importance. In addition, since the content to be reproduced when the tag is selected is provided as the title or the content of the corresponding tag, the user can intuitively understand what contents are reproduced when the tag is selected.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 음성 데이터를 위한 태깅 시스템의 구성을 개략적으로 나타내는 블록도이다.
도 2는 본 발명의 기술적 사상에 따른 태깅 시스템(100)이 음성 데이터의 재생 중에 동작하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 기술적 사상에 따른 태깅 시스템(100)이 음성 데이터의 녹음 중에 동작하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 데이터를 위한 태깅 시스템이 태그를 디스플레이하는 방법의 일 예를 설명하기 위한 도면이다.
BRIEF DESCRIPTION OF THE DRAWINGS A brief description of each drawing is provided to more fully understand the drawings recited in the description of the invention.
1 is a block diagram schematically showing a configuration of a tagging system for voice data according to an embodiment of the present invention.
2 is a diagram for explaining a method in which the tagging system 100 according to the technical idea of the present invention operates during reproduction of voice data.
3 is a diagram for explaining a method in which the tagging system 100 according to the technical idea of the present invention operates during recording of voice data.
4 is a diagram for explaining an example of a method of displaying a tag by a tagging system for voice data according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is capable of various modifications and various embodiments, and specific embodiments are illustrated in the drawings and described in detail in the detailed description. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In this specification, the terms "comprises" or "having" and the like refer to the presence of stated features, integers, steps, operations, elements, components, or combinations thereof, But do not preclude the presence or addition of features, numbers, steps, operations, components, parts, or combinations thereof.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.Also, in this specification, when any one element 'transmits' data to another element, the element may transmit the data directly to the other element, or may be transmitted through at least one other element And may transmit the data to the other component. Conversely, when one element 'directly transmits' data to another element, it means that the data is transmitted to the other element without passing through another element in the element.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.Hereinafter, the present invention will be described in detail with reference to the embodiments of the present invention with reference to the accompanying drawings. Like reference symbols in the drawings denote like elements.

도 1은 본 발명의 일 실시예에 따른 음성 데이터를 위한 태깅 시스템(이하, '태깅 시스템'이라고 함)의 구성을 개략적으로 나타내는 블록도이다.FIG. 1 is a block diagram schematically showing the configuration of a tagging system for voice data (hereinafter, referred to as 'tagging system') according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 데이터를 위한 태깅 방법을 구현하기 위하여, 태깅 시스템(100)이 구비될 수 있다.Referring to FIG. 1, a tagging system 100 may be provided to implement a tagging method for voice data according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 상기 태깅 시스템(100)은 사용자 단말(200)에 포함되는 형태로 구현될 수 있으며, 이 경우, 상기 태깅 시스템(100)은 상기 사용자 단말(200)을 구성하는 하드웨어 리소스, 상기 사용자 단말(200)에 설치된 소프트웨어 또는 이들의 결합의 형태로 구현될 수 있다. 물론 도 1에 도시된 바와 달리, 상기 태깅 시스템(100)은 다른 시스템 및 장치에 포함되지 않은 독립된 장치로 구현될 수도 있다.1, the tagging system 100 may be embodied as being included in the user terminal 200. In this case, the tagging system 100 may include hardware Resources, software installed in the user terminal 200, or a combination thereof. Of course, unlike the one shown in FIG. 1, the tagging system 100 may be implemented as an independent device not included in other systems and devices.

상기 사용자 단말(200) 은 컴퓨터, 랩탑, 데스크탑을 포함하는 컴퓨팅 장치일 수 있으며, 특히, 휴대전화, 위성전화, 무선전화, SIP(Session Initiation Protocol), WLL(Wireless Local Loop) 스테이션, 스마트폰, 타블렛 PC, PDA(Personal Digital Assistant) 등의 핸드헬드 장치를 포함하는 프로세싱 장치일 수도 있다.The user terminal 200 may be a computing device including a computer, a laptop, and a desktop. The user terminal 200 may be a mobile phone, a satellite phone, a wireless telephone, a Session Initiation Protocol (SIP), a Wireless Local Loop (WLL) A tablet PC, a personal digital assistant (PDA), and the like.

도 1에 도시된 바와 같이, 상기 태깅 시스템(100)은 녹음모듈(110), 저장모듈(120), 특정모듈(130), 추출모듈(140), 음성인식모듈(150), 태그생성모듈(160), 디스플레이모듈(170), 재생모듈(180)을 포함할 수 있다. 본 발명의 실시예에 따라서는, 상술한 구성요소들 중 일부 구성요소는 반드시 본 발명의 구현에 필수적으로 필요한 구성요소에 해당하지 않을 수도 있으며, 또한 실시예에 따라 상기 태깅 시스템(100)이 이보다 더 많은 구성요소를 포함할 수 있음은 물론이다. 예를 들어, 상기 태깅 시스템(100)은 상기 태깅 시스템(100)에 포함된 다른 구성들(예를 들면, 녹음모듈(110), 저장모듈(120), 특정모듈(130), 추출모듈(140), 음성인식모듈(150), 태그생성모듈(160), 디스플레이모듈(170) 및/또는 재생모듈(180) 등)의 기능 및/또는 리소스를 제어할 수 있는 제어모듈(미도시)을 더 포함할 수 있으며, 상기 녹음모듈(110) 및/또는 저장모듈(120)은 상기 태깅 시스템(100)이 아니라 상기 사용자 단말(200) 상에 구현될 수도 있다.1, the tagging system 100 includes a recording module 110, a storage module 120, a specific module 130, an extraction module 140, a voice recognition module 150, a tag generation module 160, a display module 170, and a playback module 180. According to an embodiment of the present invention, some of the above-mentioned components may not necessarily correspond to the components necessary for the implementation of the present invention, and the tagging system 100 may further include, It goes without saying that more components may be included. For example, the tagging system 100 may include other components included in the tagging system 100 (e.g., the recording module 110, the storage module 120, the specific module 130, the extraction module 140 (Not shown) that can control the functions and / or resources of the voice recognition module 150, the voice recognition module 150, the tag generation module 160, the display module 170 and / or the reproduction module 180, And the recording module 110 and / or the storage module 120 may be implemented on the user terminal 200, rather than the tagging system 100. [

상기 태깅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 태깅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 태깅 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예를 들면, 녹음모듈(110), 저장모듈(120), 특정모듈(130), 추출모듈(140), 음성인식모듈(150), 태그생성모듈(160), 디스플레이모듈(170) 및/또는 재생모듈(180)은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 녹음모듈(110), 저장모듈(120), 특정모듈(130), 추출모듈(140), 음성인식모듈(150), 태그생성모듈(160), 디스플레이모듈(170), 재생모듈(180) 등 각각의 개별 모듈을 구성하는 세부요소들 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 세부요소들이 서로 유기적으로 결합되어 각각의 개별 모듈이 수행하는 기능을 실현할 수도 있다.The tagging system 100 may include hardware resources and / or software necessary for implementing the technical idea of the present invention, and does not necessarily mean one physical component or one device . That is, the tagging system 100 may mean a logical combination of hardware and / or software provided to implement the technical idea of the present invention. If necessary, the tagging system 100 may be installed in a separate apparatus to perform respective functions And may be embodied as a set of logical structures for realizing the technical idea of the present invention. In addition, the tagging system 100 may mean a set of components separately implemented for each function or role for implementing the technical idea of the present invention. For example, the recording module 110, the storage module 120, the specific module 130, the extraction module 140, the voice recognition module 150, the tag generation module 160, the display module 170, and / The playback module 180 may be located in different physical devices, or may be located in the same physical device. In addition, depending on the embodiment, the recording module 110, the storage module 120, the specific module 130, the extraction module 140, the voice recognition module 150, the tag generation module 160, the display module 170 And playback module 180 are also located in different physical devices, and detailed elements located in different physical devices are organically coupled to each other to realize functions performed by the respective individual modules It is possible.

또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예를 들면, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.In this specification, a module may mean a functional and structural combination of hardware for carrying out the technical idea of the present invention and software for driving the hardware. For example, the module may refer to a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and it does not necessarily mean a physically connected code or a kind of hardware But can be easily deduced to the average expert in the field of the present invention.

상기 녹음모듈(110)은 상기 사용자 단말(200)에 포함되는 마이크로폰(300)을 통해 입력되는 음성을 녹음하여 음성 데이터를 생성할 수 있다.The recording module 110 may generate voice data by recording a voice input through the microphone 300 included in the user terminal 200. [

상기 저장모듈(120)은 상기 태깅 시스템(100)이 처리할 음성 데이터를 저장할 수 있다. 상기 저장모듈(120)에 저장되는 상기 음성 데이터는 상기 녹음모듈(110)에 의해 녹음되는 음성 데이터일 수도 있지만, 다른 시스템 혹은 장치에 의해 미리 녹음되어 상기 저장모듈(120)에 저장되는 음성 데이터(예를 들면, 네트워크를 통해 다운로드 되는 음성 데이터 등)일 수도 있다.The storage module 120 may store voice data to be processed by the tagging system 100. The voice data stored in the storage module 120 may be voice data that is recorded by the voice recording module 110, but may be voice data recorded in advance by another system or device and stored in the storage module 120 For example, voice data downloaded through a network, or the like).

상기 음성 데이터는 음성 정보만을 가지는 순수한 음성 데이터일 수도 있지만, 멀티미디어 데이터(예를 들면, 동영상 데이터)에 포함되어 있는 음성 데이터일 수도 있다. 또한, 상기 음성 데이터는 mpeg1 등의 각종 오디오 규격에 의한 코덱에 의해 인코딩되어 있는 디지털 파일의 형태로 상기 저장모듈(120)에 저장될 수 있다. 물론 상기 음성 데이터는 압축이나 인코딩이 되어 있지 않은 비트 스트림 형태(예를 들면, 웨이브폼 오디오)의 디지털 파일일 수도 있다.The voice data may be pure voice data having only voice information, but may be voice data included in multimedia data (e.g., moving picture data). In addition, the audio data may be stored in the storage module 120 in the form of a digital file encoded by a codec according to various audio standards such as mpeg1. Of course, the audio data may be a digital file of a bit stream type (e.g., waveform audio) that is not compressed or encoded.

한편, 상기 음성 데이터는 각종 음성인식(Speech to Text) 방법을 통해 텍스트의 형태로 변환될 수 있는 데이터일 수 있다.Meanwhile, the speech data may be data that can be converted into a text form through various speech recognition (Speech to Text) methods.

상기 특정모듈(130)은 상기 음성 데이터의 태깅 시점을 특정할 수 있다.The specific module 130 may specify a tagging point of the voice data.

상기 음성 데이터의 태깅 시점은 상기 음성 데이터의 재생 기간 또는 녹음 기간 중의 어느 한 시점일 수 있다.The tagging point of the voice data may be any one of a reproduction period of the voice data or a recording period.

일 실시예에서, 상기 특정모듈(130)은 상기 음성 데이터의 재생 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정할 수 있다.In one embodiment, when the tag addition command is input from the user during the reproduction of the voice data, the specific module 130 specifies the reproduction time point of the voice data when the tag addition command is input as the tagging time point .

보다 상세하게는 상기 태깅 시스템(100)은 상기 음성 데이터를 재생할 수 있으며, 재생 도중 사용자로부터 태그 추가 명령을 입력 받기 위한 소정의 태그 추가 UI를 제공할 수 있다. 사용자가 상기 UI를 통해 태그 추가 명령을 입력하는 경우, 상기 특정모듈(130)은 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정할 수 있다. 본 실시예에 대하여는 추후 도 2를 참조하여 보다 상세하게 설명하기로 한다.More specifically, the tagging system 100 can reproduce the voice data and provide a predetermined tag addition UI for receiving a tag addition command from a user during reproduction. When the user inputs a tag addition command through the UI, the specific module 130 can specify the reproduction time point of the voice data when the tag addition command is input as the tagging time point. The present embodiment will be described in more detail with reference to FIG.

한편 다른 일 실시예에서, 상기 특정모듈(130)은 상기 음성 데이터의 녹음 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정할 수 있다.In another embodiment, when the tag addition command is input from the user during the recording of the voice data, the specific module 130 sets the recording time of the voice data when the tag addition command is input to the tagging time point Can be specified.

보다 상세하게는 상기 태깅 시스템(100)은 상기 녹음모듈(110)이 상기 음성 데이터를 녹음하는 도중 사용자로부터 태그 추가 명령을 입력 받기 위한 소정의 태그 추가 UI를 제공할 수 있다. 사용자가 상기 UI를 통해 태그 추가 명령을 입력하는 경우, 상기 특정모듈(130)은 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정할 수 있다. 본 실시예에 대하여는 추후 도 3을 참조하여 보다 상세하게 설명하기로 한다.More specifically, the tagging system 100 may provide a predetermined tag addition UI for receiving a tag addition command from a user while the recording module 110 is recording the voice data. When the user inputs a tag addition command through the UI, the specific module 130 can specify the recording time of the voice data at the time of inputting the tag addition command as the tagging time. The present embodiment will be described in more detail with reference to FIG.

이 외에도 상기 특정모듈(130)이 상기 태깅 시점을 특정하는 방법은 다양할 수 있다. 예를 들어, 상기 특정모듈(130)은 사용자로부터 상기 음성 데이터의 재생 기간 내의 특정 시점을 직접 입력 받을 수 있으며, 입력된 특정 시점을 상기 태깅 시점으로 특정할 수도 있다.In addition, the method for specifying the tagging time by the specific module 130 may vary. For example, the specific module 130 may directly receive a specific time point within the reproduction period of the voice data from the user, and may specify the input specific time point as the tagging time point.

또는 상기 특정모듈(130)은 소정의 기간 동안 공백이 있은 후 음향이 발생하는 시작점을 상기 태깅 시점으로 특정할 수도 있으며, 상기 음성 데이터에서 일정한 패턴의 음향이 발생되면 상기 일정한 패턴의 음향의 재생이 끝난 시점을 상기 태깅 시점으로 판단할 수도 있다. 상기 음성 데이터가 단락 혹은 문단 사이에 일정한 공백이 삽입되도록 녹음된 것이라면, 전자의 실시예에 의해 문단 혹은 단락 별로 태그가 삽입될 수 있다. 한편, 녹음자가 태깅이 필요하다고 판단한 시점에서 일정한 패턴을 삽입하여 상기 음성 데이터를 녹음한 경우에는 후자의 실시예가 유용할 수 있다.Alternatively, the specific module 130 may specify a starting point at which sound is generated after a blank interval for a predetermined period as the tagging time point. If a certain pattern of sound is generated in the sound data, It may be determined that the ending time is the tagging time. If the voice data is recorded so that a certain space is inserted between paragraphs or paragraphs, the tag may be inserted by paragraph or paragraph by the former embodiment. Meanwhile, the latter embodiment may be useful when the voice data is recorded by inserting a certain pattern at a point of time when the recorder judges that tagging is necessary.

한편, 상기 태깅 시점이 특정된 경우, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.If the tagging time point is specified, the extraction module 140 extracts data of a recognition interval including at least one of a predetermined section before the tagging point or a predetermined section after the tagging point in the voice data have.

구현 예에 따라, 상기 추출모듈(140)은 상기 태깅시점으로부터 상기 태깅시점 이후의 일정 시점까지, 혹은 상기 특정시점 이전의 일정 시점으로부터 상기 태깅시점까지, 혹은 상기 특정시점 이전의 일정 시점으로부터 상기 태깅시점 이후의 일정 시점까지를 인식 구간으로 판단할 수 있다.According to an embodiment, the extraction module 140 may extract the tagging information from the tagging point to a certain point after the tagging point, or from a certain point in time before the point-in-time point to the tagging point, It is possible to determine the recognition period up to a certain time point after the time point.

예를 들어, 상기 특정모듈(130)이 2분5초를 상기 태깅 시점으로 특정한 경우, 상기 추출모듈(140)은 상기 태깅 시점의 5초 전인 2분으로부터 상기 태깅 시점의 5초 후 2분10초까지의 기간을 인식구간으로 판단할 수 있으며, 상기 음성 데이터 중 인식구간인 2분에서부터 2분10초까지의 데이터를 추출할 수 있다.For example, if the specific module 130 specifies 2 minutes and 5 seconds as the tagging time, the extraction module 140 extracts 5 minutes before the tagging time, 2 minutes before the tagging time, Second can be determined as the recognition interval, and data from the recognition interval of 2 minutes to 2 minutes 10 seconds can be extracted from the voice data.

상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있다.The speech recognition module 150 may recognize the extracted data of the recognition interval to generate text data.

상기 음성인식모듈(150)은 DTW (Dynamic Time Warping), HMM (hidden Markov modelling), Neural Networks 등 공지의 다양한 음성인식 기법을 이용하여 상기 인식 구간의 음성 데이터를 음성인식할 수 있으며, 상기 인식 구간의 음성 데이터에 상응하는 텍스트 데이터를 생성할 수 있다.The speech recognition module 150 can recognize speech data of the recognition interval using various known speech recognition techniques such as DTW (Dynamic Time Warping), HMM (hidden Markov modeling), Neural Networks, The text data corresponding to the voice data of the voice data can be generated.

상기 태그생성모듈(160)은 상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성할 수 있으며, 상기 디스플레이모듈(170)은 생성된 상기 태그를 디스플레이할 수 있다.The tag generation module 160 may include the text data and may generate a tag corresponding to the tagging time, and the display module 170 may display the generated tag.

한편, 일 실시예에서, 상기 디스플레이모듈(170)은 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이함으로써, 사용자가 태그의 제목 또는 내용을 통해 상기 태그의 내용을 용이하게 확인할 수 있도록 할 수 있다.Meanwhile, in one embodiment, the display module 170 displays at least a part of the text data included in the tag as the title or contents of the tag, thereby allowing the user to easily read the contents of the tag through the title or contents of the tag So that it can be confirmed.

한편, 상기 재생모듈(180)은 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생할 수 있다.Meanwhile, when the tag is selected, the reproducing module 180 can reproduce the audio data from a tagging point corresponding to the tag or a reproducing point determined based on the tagging point.

도 2는 본 발명의 기술적 사상에 따른 태깅 시스템(100)이 음성 데이터의 재생 중에 동작하는 방법을 설명하기 위한 도면이다.2 is a diagram for explaining a method in which the tagging system 100 according to the technical idea of the present invention operates during reproduction of voice data.

상기 태깅 시스템(100)은 음성 데이터를 재생할 수 있으며, 재생 중에는 도 2(a), (b), (c)에 도시된 바와 같은 UI를 사용자 단말(200)에 제공할 수 있다. 상기 UI는 음성 데이터의 되감기, 일시정지, 재생, 빨리감기 등의 기능을 수행할 수 있는 버튼과 사용자가 태그를 추가할 수 있도록 하는 태그 추가 UI(10) 등을 포함할 수 있다.The tagging system 100 can reproduce voice data and can provide a UI to the user terminal 200 during reproduction as shown in FIGS. 2A, 2B, and 2C. The UI may include a button for performing functions such as rewinding, pausing, playing, and fast-forwarding of voice data, and a tag addition UI 10 for allowing a user to add a tag.

상기 음성 데이터의 재생 시점이 00:02:25가 되었을 때, 사용자가 태그 추가 UI(10)를 선택하여 태그 추가 명령을 입력한 경우를 도시한 것이 도 2(a)이다. 도 2(a)를 참조하면, 사용자가 태그 추가 명령을 입력한 경우, 상기 특정모듈(130)은 태그 추가 명령이 입력된 상기 음성 데이터의 재생 시점인 00:02:25를 태깅 시점으로 특정할 수 있으며, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점(00:02:25) 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.2 (a) shows a case where the user selects the tag addition UI 10 and inputs a tag addition command when the reproduction time of the audio data becomes 00:02:25. Referring to FIG. 2 (a), when the user inputs a tag addition command, the specific module 130 specifies 00:02:25, which is the reproduction time point of the voice data inputted with the tag addition command, as the tagging point And the extraction module 140 may extract data of a recognition interval including at least one of a predetermined section before the tagging time (00:02:25) or a predetermined section after the tagging time have.

그러면, 상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있으며, 상기 태그생성모듈(160)은 상기 태깅 시점(00:02:25)에 상응하는 태그를 생성하고, 상기 디스플레이모듈(170)은 생성된 상기 태깅 시점(00:02:25)에 상응하는 태그(1)를 디스플레이할 수 있다. 도 2(a)에 도시된 바와 같이, 디스플레이모듈(170)은 상기 태그(1)에 상응하는 태깅 시점(1-1) 및 상기 태그(1)의 제목 또는 내용(1-2)을 디스플레이할 수 있다. 이 때, 상기 태그(1)의 제목 또는 내용(1-2)은 상기 텍스트 데이터 중 적어도 일부일 수 있다.Then, the voice recognition module 150 can generate text data by voice recognition of the extracted data of the recognition section, and the tag generation module 160 generates text data corresponding to the tagging time (00:02:25) Tag, and the display module 170 can display the tag 1 corresponding to the generated tagging time (00:02:25). 2 (a), the display module 170 displays the tagging time point 1-1 corresponding to the tag 1 and the title or contents 1-2 of the tag 1 . At this time, the title or content (1-2) of the tag (1) may be at least a part of the text data.

한편, 상기 음성 데이터의 재생 시점이 00:05:07가 되었을 때, 사용자가 태그 추가 UI(10)를 선택하여 태그 추가 명령을 입력한 경우를 도시한 것이 도 2(b)이다. 도 2(b)를 참조하면, 사용자가 태그 추가 명령을 입력한 경우, 상기 특정모듈(130)은 태그 추가 명령이 입력된 상기 음성 데이터의 재생 시점인 00:05:07를 태깅 시점으로 특정할 수 있으며, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점(00:02:25) 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.On the other hand, FIG. 2B shows a case where the user selects the tag addition UI 10 and inputs a tag addition command when the playback time of the audio data reaches 00:05:07. Referring to FIG. 2B, when the user inputs a tag addition command, the specific module 130 specifies 00:05:07, which is the reproduction time point of the voice data inputted with the tag addition command, as the tagging time point And the extraction module 140 may extract data of a recognition interval including at least one of a predetermined section before the tagging time (00:02:25) or a predetermined section after the tagging time have.

그러면, 상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있으며, 상기 태그생성모듈(160)은 상기 태깅 시점(00:05:07)에 상응하는 태그를 생성하고, 상기 디스플레이모듈(170)은 생성된 상기 태깅 시점(00:05:07)에 상응하는 태그(2)를 더 디스플레이할 수 있다. 도 2(b)에 도시된 바와 같이, 디스플레이모듈(170)은 상기 태그(2)에 상응하는 태깅 시점(2-1) 및 상기 태그(2)의 제목 또는 내용(2-2)을 디스플레이할 수 있다. 이 때, 상기 태그(2)의 제목 또는 내용(2-2)은 상기 텍스트 데이터 중 적어도 일부일 수 있다.Then, the voice recognition module 150 can generate text data by voice recognition of the extracted data of the recognition section. The tag generation module 160 generates text data corresponding to the tagging time (00:05:07) Tag, and the display module 170 may further display the tag 2 corresponding to the generated tagging point (00:05:07). The display module 170 displays the tagging time point 2-1 corresponding to the tag 2 and the title or contents 2-2 of the tag 2 as shown in Figure 2 (b) . At this time, the title (2-2) of the tag (2) may be at least a part of the text data.

한편, 상기 음성 데이터의 재생 시점이 00:09:45가 되었을 때, 사용자가 태그 추가 UI(10)를 선택하여 태그 추가 명령을 입력한 경우를 도시한 것이 도 2(c)이다. 도 2(c)를 참조하면, 사용자가 태그 추가 명령을 입력한 경우, 상기 특정모듈(130)은 태그 추가 명령이 입력된 상기 음성 데이터의 재생 시점인 00:09:45를 태깅 시점으로 특정할 수 있으며, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점(00:09:45) 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.On the other hand, FIG. 2C shows a case where the user selects the tag addition UI 10 and inputs a tag addition command when the reproduction time of the audio data reaches 00:09:45. Referring to FIG. 2C, when the user inputs a tag addition command, the specific module 130 specifies 00:09:45, which is the reproduction time point of the voice data inputted with the tag addition command, as the tagging time point And the extraction module 140 may extract data of a recognition interval including at least one of a predetermined section before the tagging time (00:09:45) or a predetermined section after the tagging time have.

그러면, 상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있으며, 상기 태그생성모듈(160)은 상기 태깅 시점(00:09:45)에 상응하는 태그를 생성하고, 상기 디스플레이모듈(170)은 생성된 상기 태깅 시점(00:05:07)에 상응하는 태그(3)를 더 디스플레이할 수 있다. 도 2(c)에 도시된 바와 같이, 디스플레이모듈(170)은 상기 태그(3)에 상응하는 태깅 시점(3-1) 및 상기 태그(3)의 제목 또는 내용(3-2)을 디스플레이할 수 있다. 이 때, 상기 태그(3)의 제목 또는 내용(3-2)은 상기 텍스트 데이터 중 적어도 일부일 수 있다.Then, the speech recognition module 150 may generate text data by voice recognition of the extracted data of the recognition interval, and the tag generation module 160 may generate text data corresponding to the tagging time 00:09:45 And the display module 170 may further display the tag 3 corresponding to the generated tagging time point 00:05:07. The display module 170 displays the tagging time point 3-1 corresponding to the tag 3 and the title or contents 3-2 of the tag 3 as shown in FIG. 2 (c) . At this time, the title or contents (3-2) of the tag 3 may be at least a part of the text data.

한편, 도2(c)와 같은 상태에서, 상기 태그(1, 2, 3) 중 어느 하나가 선택되는 경우, 상기 재생모듈(180)은 상기 음성 데이터를 선택된 태그에 상응하는 태깅 시점에서부터 재생할 수 있다. 예를 들어, 태그(2)가 선택되는 경우, 상기 재생모듈(180)은 상기 음성 데이터를 00:05:07부터 재생할 수 있다.2 (c), when the tag 1, 2, or 3 is selected, the reproducing module 180 can reproduce the audio data from the tagging point corresponding to the selected tag have. For example, when the tag 2 is selected, the reproduction module 180 can reproduce the audio data from 00:05:07.

다른 일 실시예에서, 상기 재생모듈(180)은 상기 태그(1, 2, 3) 중 어느 하나가 선택되는 경우, 선택된 태그에 상응하는 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생할 수 있다. 예를 들어, 상기 재생모듈(180)은 태깅 시점의 일정 시간 이전(예를 들면, 2초 전)부터 상기 음성 데이터를 재생할 수 있다. 한편, 본 실시예예서, 상기 재생 시점은 상기 인식 구간의 시작시점일 수도 있다. In another embodiment, the playback module 180 may play back from a playback point determined based on the tagging time corresponding to the selected tag when any one of the tags 1, 2, and 3 is selected. For example, the reproducing module 180 can reproduce the voice data from a predetermined time before (for example, two seconds before) the tagging time. Meanwhile, in the present embodiment, the playback time may be the start time of the recognition interval.

도 3은 본 발명의 기술적 사상에 따른 태깅 시스템(100)이 음성 데이터의 녹음 중에 동작하는 방법을 설명하기 위한 도면이다.3 is a diagram for explaining a method in which the tagging system 100 according to the technical idea of the present invention operates during recording of voice data.

상기 태깅 시스템(100)은 음성 데이터를 녹음할 수 있으며, 녹음 중에는 도 3(a), (b)에 도시된 바와 같은 UI를 사용자 단말(200)에 제공할 수 있다. 상기 UI는 음성 데이터의 녹음 중지, 일시정지 등의 기능을 수행할 수 있는 버튼과 사용자가 태그를 추가할 수 있도록 하는 태그 추가 UI(20) 등을 포함할 수 있다.The tagging system 100 may record voice data and may provide a UI to the user terminal 200 during recording as shown in FIGS. 3A and 3B. The UI may include a button capable of performing functions such as recording stop and pause of voice data, and a tag addition UI 20 for allowing a user to add a tag.

상기 음성 데이터의 녹음 시점이 00:03:35가 되었을 때, 사용자가 태그 추가 UI(20)를 선택하여 태그 추가 명령을 입력한 경우를 도시한 것이 도 3(a)이다. 도 3(a)를 참조하면, 사용자가 태그 추가 명령을 입력한 경우, 상기 특정모듈(130)은 태그 추가 명령이 입력된 상기 음성 데이터의 녹음 시점인 00:03:35를 태깅 시점으로 특정할 수 있으며, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점(00:03:35) 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.3 (a) shows a case where the user selects the tag addition UI 20 and inputs a tag addition command when the recording time of the audio data reaches 00:03:35. 3 (a), when the user inputs a tag addition command, the specific module 130 specifies 00:03:35, which is the recording time point of the voice data to which the tag addition command is inputted, as the tagging point And the extraction module 140 may extract data of a recognition interval including at least one of a predetermined section before the tagging time (00:03:35) or a predetermined section after the tagging time have.

본 실시예에서, 인식 구간이 상기 태깅 시점 이후의 일정 구간을 포함하는 경우에는 상기 추출모듈(140)은 상기 태깅 시점 이후의 일정 구간만큼의 기간 동안 녹음이 더 진행된 후에 상기 인식 구간의 데이터를 추출할 수 있다.In the present embodiment, if the recognition interval includes a certain interval after the tagging time, the extraction module 140 extracts the data of the recognition interval after the recording is further performed for a predetermined interval after the tagging time can do.

그러면, 상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있으며, 상기 태그생성모듈(160)은 상기 태깅 시점(00:03:35)에 상응하는 태그를 생성하고, 상기 디스플레이모듈(170)은 생성된 상기 태깅 시점(00:03:35)에 상응하는 태그(4)를 디스플레이할 수 있다. 도 3(a)에 도시된 바와 같이, 디스플레이모듈(170)은 상기 태그(4)에 상응하는 태깅 시점(4-1) 및 상기 태그(4)의 제목 또는 내용(4-2)을 디스플레이할 수 있다. 이 때, 상기 태그(4)의 제목 또는 내용(4-2)은 상기 텍스트 데이터 중 적어도 일부일 수 있다.Then, the speech recognition module 150 may generate text data by voice recognition of the extracted data of the recognition section, and the tag generation module 160 may generate text data corresponding to the tagging time (00:03:35) Tag, and the display module 170 may display the tag 4 corresponding to the generated tagging time (00:03:35). 3 (a), the display module 170 displays the tagging time point 4-1 corresponding to the tag 4 and the title or content 4-2 of the tag 4 . At this time, the title or contents (4-2) of the tag 4 may be at least a part of the text data.

상기 음성 데이터의 녹음 시점이 00:05:48가 되었을 때, 사용자가 태그 추가 UI(20)를 선택하여 태그 추가 명령을 입력한 경우를 도시한 것이 도 3(b)이다. 도 3(b)를 참조하면, 사용자가 태그 추가 명령을 입력한 경우, 상기 특정모듈(130)은 태그 추가 명령이 입력된 상기 음성 데이터의 녹음 시점인 00:05:48를 태깅 시점으로 특정할 수 있으며, 상기 추출모듈(140)은 상기 음성 데이터 중 상기 태깅 시점(00:05:48) 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출할 수 있다.3 (b) shows a case where the user selects the tag addition UI 20 and inputs a tag addition command when the recording time of the audio data reaches 00:05:48. Referring to FIG. 3B, when the user inputs a tag addition command, the specific module 130 specifies 00:05:48, which is the recording time point of the voice data inputted with the tag addition command, as the tagging point And the extraction module 140 may extract data of a recognition interval including at least one of a predetermined section before the tagging time (00:05:48) or a predetermined section after the tagging time have.

그러면, 상기 음성인식모듈(150)은 추출된 상기 인식 구간의 데이터를 음성 인식하여 텍스트 데이터를 생성할 수 있으며, 상기 태그생성모듈(160)은 상기 태깅 시점(00:05:48)에 상응하는 태그를 생성하고, 상기 디스플레이모듈(170)은 생성된 상기 태깅 시점(00:05:48)에 상응하는 태그(5)를 더 디스플레이할 수 있다. 도 3(b)에 도시된 바와 같이, 디스플레이모듈(170)은 상기 태그(5)에 상응하는 태깅 시점(5-1) 및 상기 태그(5)의 제목 또는 내용(5-2)을 디스플레이할 수 있다. 이 때, 상기 태그(5)의 제목 또는 내용(5-2)은 상기 텍스트 데이터 중 적어도 일부일 수 있다.Then, the voice recognition module 150 can generate text data by voice recognition of the extracted data of the recognition section. The tag generation module 160 generates text data corresponding to the tagging time (00:05:48) Tag, and the display module 170 may further display the tag 5 corresponding to the generated tagging time (00:05:48). The display module 170 displays the tagging time point 5-1 corresponding to the tag 5 and the title or content 5-2 of the tag 5 as shown in Figure 3 (b) . At this time, the title or contents (5-2) of the tag 5 may be at least a part of the text data.

상술한 바와 같은 본 발명의 기술적 사상에 따르면, 사용자가 관심을 가지거나 중요하다고 여기는 음성 데이터의 특정 지점에 용이하게 태그를 부여할 수 있도록 할 수 있으며, 추후 태그가 선택되는 경우 해당 태그에 상응하는 시점에서부터 음성 데이터가 재생되도록 함으로써 사용자가 관심을 가지거나 중요하다고 여기는 음성 데이터의 특정 지점을 용이하게 찾아가도록 할 수 있다. 또한, 태그가 선택될 경우에 재생되는 내용을 해당 태그의 제목 또는 내용으로서 제공하므로 사용자는 태그를 선택할 경우에 재생되는 음성이 어떠한 내용인지를 직관적으로 파악할 수 있는 효과가 있다.According to the technical idea of the present invention as described above, it is possible to easily assign a tag to a specific point of voice data that the user considers to be interested or important, and when a tag is selected later, So that the user can easily find a specific point of the voice data that the user considers to be of interest or importance. In addition, since the content to be reproduced when the tag is selected is provided as the title or the content of the corresponding tag, the user can intuitively understand what contents are reproduced when the tag is selected.

도 4는 태깅 시점(00:02:45)에 상응하는 태그의 제목 또는 내용이 계속 변화하며 디스플레이 되는 예를 나타낸다. 이하에서는 도 4를 참조하여, 본 발명의 일 실시예에 따른 디스플레이모듈(170)이 태그를 디스플레이하는 방법을 설명하도록 한다. 한편 도 4에서 상기 태그에 포함된 텍스트 데이터는 "recent court cases in Paris have raise"라는 텍스트 데이터를 포함하는 것으로 한다. 즉, 상기 음성 데이터의 태깅 시점(00:02:45)에 상응하는 인식 구간에 "recent court cases in Paris have raise"와 같은 음성이 녹음되어 있다.4 shows an example in which the title or content of the tag corresponding to the tagging time (00:02:45) is continuously changed and displayed. Hereinafter, with reference to FIG. 4, a method of displaying a tag by the display module 170 according to an embodiment of the present invention will be described. On the other hand, in FIG. 4, the text data included in the tag includes text data "recent court cases in Paris have a raise ". That is, a voice such as "recent court cases in Paris have raise" is recorded in the recognition interval corresponding to the tagging time (00:02:45) of the voice data.

상기 디스플레이모듈(170)은 앞서 언급한 바와 같이, 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 내용 또는 제목으로 디스플레이할 수 있는데, 일 실시예에서, 상기 디스플레이모듈(170)은 상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 차례대로 일정 길이만큼 이동하면서 디스플레이할 수 있다.As described above, the display module 170 may display at least a part of the text data included in the tag by the content or the title of the tag. In one embodiment, the display module 170 may display At least some of the included text data can be sequentially displayed and moved by a predetermined length.

도 4(a)에 도시된 바와 같이, 상기 디스플레이모듈(170)은 상기 텍스트 데이터 중 첫 일부인 "recent court cases in Pari"를 상기 태그의 제목 또는 내용으로 디스플레이 할 수 있으며, 다음에는 상기 텍스트 데이터를 일정 길이만큼 이동하여 도 4(b)에 도시된 바와 같이 "cent court cases in Paris hav"를 디스플레이 할 수 있다. 다음에는 다시 텍스트 데이터를 일정 길이만큼 이동하여 도 4(c)에 도시된 바와 같이 "t court cases in Paris have rai"를 디스플레이 할 수 있다.As shown in FIG. 4A, the display module 170 can display 'recent court cases in Pari', which is the first part of the text data, in the title or contents of the tag, Quot; cent court cases in Paris hav "as shown in Fig. 4 (b). Next, by moving the text data again by a predetermined length, it is possible to display "t court cases in Paris have rai" as shown in Fig. 4 (c).

도 4는 상기 디스플레이모듈(170)이 복수의 길이만큼 이동하면서 텍스트 데이터 중 일부를 디스플레이하는 예에 대하여 도시하고 있지만, 구현 예에 따라서는 상기 디스플레이모듈은 상기 텍스트 데이터를 한글자씩 이동하면서 디스플레할 수도 있다.4 illustrates an example in which the display module 170 displays a part of the text data while moving the display module 170 by a plurality of lengths. However, according to an embodiment, the display module may display the text data by moving the text data one by one have.

이와 같은 방식으로 상기 디스플레이모듈(170)은 상기 텍스트 데이터의 마지막까지 디스플레이할 수 있으며, 사용자는 상기 디스플레이모듈(170)이 디스플레이하는 정보를 끝까지 확인함으로써 상기 태그에 상응하는 태깅 시점 부근의 음성 데이터가 어떠한 내용을 가지고 있는지를 파악할 수 있다.In this manner, the display module 170 can display up to the end of the text data. By checking the information displayed by the display module 170 to the end, the user can recognize voice data near the tagging point corresponding to the tag You can figure out what contents you have.

한편, 구현 예에 따라서, 상기 태깅 시스템(100)은 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다. 여기서, 상기 프로그램은, 프로세서에 의해 실행되는 경우, 본 실시예에 따른 태깅 시스템(100)으로 하여금, 상술한 음성 데이터를 위한 태깅 방법을 수행하도록 할 수 있다.Meanwhile, according to an embodiment, the tagging system 100 may include a processor and a memory for storing a program executed by the processor. The processor may include a single-core CPU or a multi-core CPU. The memory may include high speed random access memory and may include non-volatile memory such as one or more magnetic disk storage devices, flash memory devices, or other non-volatile solid state memory devices. Access to the memory by the processor and other components can be controlled by the memory controller. Here, when the program is executed by a processor, the program may cause the tagging system 100 according to the present embodiment to perform the tagging method for the voice data described above.

한편, 본 발명의 실시예에 따른 음성 데이터를 위한 태깅 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.Meanwhile, the tagging method for voice data according to the embodiment of the present invention may be implemented as a computer-readable program command and stored in a computer-readable recording medium. The target program may also be stored in a computer-readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.Program instructions to be recorded on a recording medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of software.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.Examples of the computer-readable recording medium include magnetic media such as a hard disk, a floppy disk and a magnetic tape, optical media such as CD-ROM and DVD, a floptical disk, And hardware devices that are specially configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like. The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Examples of program instructions include machine language code such as those produced by a compiler, as well as devices for processing information electronically using an interpreter or the like, for example, a high-level language code that can be executed by a computer.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.It is intended that the present invention covers the modifications and variations of this invention provided they come within the scope of the appended claims and their equivalents. .

Claims (16)

소정의 음성 데이터의 태깅 시점을 특정하는 특정모듈;
상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출모듈;
추출된 상기 인식 구간의 데이터를 음성 인식하여 상기 인식 구간의 데이터에 상응하는 텍스트 데이터를 생성하는 음성인식모듈; 및
상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성하는 태그생성모듈을 포함하는 음성 데이터를 위한 태깅 시스템.
A specific module for specifying a tagging point of predetermined audio data;
An extracting module for extracting data of a recognition interval including at least one of a predetermined section before the tagging point or a predetermined section after the tagging point in the voice data;
A speech recognition module for recognizing the extracted data of the recognition interval and generating text data corresponding to the data of the recognition interval; And
And a tag generation module including the text data and generating a tag corresponding to the tagging time point.
제1항에 있어서,
상기 특정모듈은,
상기 음성 데이터의 재생 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정하는 음성 데이터를 위한 태깅 시스템.
The method according to claim 1,
The specific module,
Wherein when the tag addition command is input from the user during the reproduction of the voice data, the reproduction time point of the voice data when the tag addition command is input is specified as the tagging time point.
제1항에 있어서,
상기 특정모듈은,
상기 음성 데이터의 녹음 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정하는 음성 데이터를 위한 태깅 시스템.
The method according to claim 1,
The specific module,
Wherein when the tag addition command is inputted from the user during the recording of the voice data, the recording time point of the voice data when the tag addition command is inputted is specified as the tagging time point.
제1항에 있어서,
상기 음성 데이터를 위한 태깅 시스템은,
생성된 상기 태그를 디스플레이하는 디스플레이모듈; 및
상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생모듈을 더 포함하는 음성 데이터를 위한 태깅 시스템.
The method according to claim 1,
The tagging system for the voice data comprises:
A display module for displaying the generated tag; And
And a reproducing module for reproducing the audio data from a tagging point corresponding to the tag or a reproducing point determined based on the tagging point when the tag is selected.
제4항에 있어서,
상기 디스플레이모듈은,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 음성 데이터를 위한 태깅 시스템.
5. The method of claim 4,
The display module includes:
And displays at least a part of the text data included in the tag as a title or content of the tag.
제5항에 있어서,
상기 디스플레이모듈은,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 차례대로 일정 길이만큼 이동하면서 디스플레이하는 음성 데이터를 위한 태깅 시스템.
6. The method of claim 5,
The display module includes:
Wherein at least a part of the text data included in the tag is sequentially moved and displayed by a predetermined length.
소정의 음성 데이터의 태깅 시점을 특정하는 특정모듈;
상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출모듈;
추출된 상기 인식 구간의 데이터를 음성 인식하여 상기 인식 구간의 데이터에 상응하는 텍스트 데이터를 생성하는 음성인식모듈; 및
상기 태깅 시점에 상응하는 태그를 디스플레이하는 디스플레이모듈; 및
상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생모듈을 포함하되,
상기 디스플레이모듈은,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 음성 데이터를 위한 태깅 시스템.
A specific module for specifying a tagging point of predetermined audio data;
An extracting module for extracting data of a recognition interval including at least one of a predetermined section before the tagging point or a predetermined section after the tagging point in the voice data;
A speech recognition module for recognizing the extracted data of the recognition interval and generating text data corresponding to the data of the recognition interval; And
A display module for displaying a tag corresponding to the tagging time; And
And a reproducing module for reproducing the audio data from a tagging point corresponding to the tag or a reproducing point determined based on the tagging point when the tag is selected,
The display module includes:
And displays at least a part of the text data included in the tag as a title or content of the tag.
음성 데이터를 위한 태깅 시스템이, 소정의 음성 데이터의 태깅 시점을 특정하는 특정단계;
상기 음성 데이터를 위한 태깅 시스템이, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출단계;
음성 데이터를 위한 태깅 시스템이, 추출된 상기 인식 구간의 데이터를 음성 인식하여 상기 인식 구간의 데이터에 상응하는 텍스트 데이터를 생성하는 음성인식단계; 및
음성 데이터를 위한 태깅 시스템이, 상기 텍스트 데이터를 포함하며, 상기 태깅 시점에 상응하는 태그를 생성하는 태그생성단계를 포함하는 음성 데이터를 위한 태깅 방법.
A tagging system for voice data, comprising: a specifying step of specifying a tagging point of predetermined voice data;
An extraction step of extracting data of a recognition interval including at least one of a predetermined section before the tagging point or a predetermined section after the tagging point in the voice data;
A speech recognition step of generating a text data corresponding to data of the recognition interval by voice recognition of data of the extracted recognition interval; And
A tagging system for speech data, the tagging system comprising the text data, and generating a tag corresponding to the tagging time point.
제8항에 있어서,
상기 특정단계는,
상기 음성 데이터의 재생 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 재생 시점을 상기 태깅 시점으로 특정하는 단계를 포함하는 음성 데이터를 위한 태깅 방법.
9. The method of claim 8,
The step of specifying,
And specifying a reproduction time point of the voice data when the tag addition command is input as the tagging time when a tag addition command is input from a user during reproduction of the voice data.
제8항에 있어서,
상기 특정단계는,
상기 음성 데이터의 녹음 도중에 사용자로부터 태그 추가 명령이 입력되는 경우, 상기 태그 추가 명령이 입력된 때의 상기 음성 데이터의 녹음 시점을 상기 태깅 시점으로 특정하는 단계를 포함하는 음성 데이터를 위한 태깅 방법.
9. The method of claim 8,
The step of specifying,
And specifying a recording time point of the voice data when the tag addition command is input as the tagging time when a tag addition command is input from a user during recording of the voice data.
제8항에 있어서,
상기 음성 데이터를 위한 태깅 방법은,
상기 음성 데이터를 위한 태깅 시스템이, 생성된 상기 태그를 디스플레이하는 디스플레이단계; 및
음성 데이터를 위한 태깅 시스템이, 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생단계를 더 포함하는 음성 데이터를 위한 태깅 방법.
9. The method of claim 8,
The tagging method for the voice data includes:
A display step of displaying the tag generated by the tagging system for the voice data; And
Wherein the tagging system for voice data further comprises a reproducing step of reproducing the voice data from a tagging point corresponding to the tag or a reproducing point determined based on the tagging point when the tag is selected Tagging method.
제11항에 있어서,
상기 디스플레이단계는,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 단계를 포함하는 음성 데이터를 위한 태깅 방법.
12. The method of claim 11,
The display step may include:
And displaying at least a part of the text data included in the tag as a title or contents of the tag.
제12항에 있어서,
상기 디스플레이단계는,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 차례대로 일정 길이만큼 이동하면서 디스플레이하는 단계를 포함하는 음성 데이터를 위한 태깅 방법.
13. The method of claim 12,
The display step may include:
And displaying at least a part of the text data included in the tag by moving a predetermined length in order.
음성 데이터를 위한 태깅 시스템이, 소정의 음성 데이터의 태깅 시점을 특정하는 특정단계;
상기 음성 데이터를 위한 태깅 시스템이, 상기 음성 데이터 중 상기 태깅 시점 이전의 일정 구간 또는 상기 태깅 시점 이후의 일정 구간 중 적어도 하나를 포함하는 인식 구간의 데이터를 추출하는 추출단계;
상기 음성 데이터를 위한 태깅 시스템이, 추출된 상기 인식 구간의 데이터를 음성 인식하여 상기 인식 구간의 데이터에 상응하는 텍스트 데이터를 생성하는 음성인식단계;
상기 음성 데이터를 위한 태깅 시스템이, 상기 태깅 시점에 상응하는 태그를 디스플레이하는 디스플레이단계; 및
상기 음성 데이터를 위한 태깅 시스템이, 상기 태그가 선택되는 경우, 상기 음성 데이터를 상기 태그에 상응하는 태깅 시점 또는 상기 태깅 시점에 기초하여 결정되는 재생시점에서부터 재생하는 재생단계를 포함하되,
상기 디스플레이단계는,
상기 태그에 포함된 텍스트 데이터 중 적어도 일부를 상기 태그의 제목 또는 내용으로 디스플레이하는 음성 데이터를 위한 태깅 방법.
A tagging system for voice data, comprising: a specifying step of specifying a tagging point of predetermined voice data;
An extraction step of extracting data of a recognition interval including at least one of a predetermined section before the tagging point or a predetermined section after the tagging point in the voice data;
A speech recognition step of generating a text data corresponding to data of the recognition interval by voice recognition of data of the extracted recognition interval;
A display step of displaying a tag corresponding to the tagging time point; And
And a playback step of playing back the audio data from a playback time point determined based on the tagging time point corresponding to the tag or the tagging time point when the tag is selected,
The display step may include:
Wherein at least a part of the text data included in the tag is displayed as the title or content of the tag.
데이터 처리장치에 설치되며 제8항 내지 제14항 중 어느 한 항에 기재된 방법을 수행하기 위해 기록매체에 저장된 컴퓨터 프로그램.
A computer program installed in a data processing apparatus and stored in a recording medium for performing the method according to any one of claims 8 to 14.
음성 데이터를 위한 태깅 시스템으로서,
프로세서; 및
상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 음성 데이터를 위한 태깅 시스템이, 제8 내지 제14 중 어느 한 항에 기재된 방법을 수행하도록 하는 음성 데이터를 위한 태깅 시스템.
A tagging system for voice data,
A processor; And
A memory for storing a computer program executed by the processor,
The computer program, when executed by the processor, causes the tagging system for voice data to perform the method of any one of claims 8 to 14.
KR1020150014143A 2015-01-29 2015-01-29 Tagging system and method for sound data KR101713626B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150014143A KR101713626B1 (en) 2015-01-29 2015-01-29 Tagging system and method for sound data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150014143A KR101713626B1 (en) 2015-01-29 2015-01-29 Tagging system and method for sound data

Publications (2)

Publication Number Publication Date
KR20160093763A KR20160093763A (en) 2016-08-09
KR101713626B1 true KR101713626B1 (en) 2017-03-09

Family

ID=56712192

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150014143A KR101713626B1 (en) 2015-01-29 2015-01-29 Tagging system and method for sound data

Country Status (1)

Country Link
KR (1) KR101713626B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786032A (en) * 2019-11-01 2021-05-11 富泰华工业(深圳)有限公司 Display content control method, device, computer device and readable storage medium
CN115294964B (en) * 2022-09-26 2023-02-10 广州小鹏汽车科技有限公司 Speech recognition method, server, speech recognition system, and readable storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101336256B1 (en) 2012-02-03 2013-12-06 한국과학기술원 Method and apparatus for tagging multimedia contents based upon voice
KR101356006B1 (en) * 2012-02-06 2014-02-12 한국과학기술원 Method and apparatus for tagging multimedia contents based upon voice enable of range setting

Also Published As

Publication number Publication date
KR20160093763A (en) 2016-08-09

Similar Documents

Publication Publication Date Title
US10586541B2 (en) Communicating metadata that identifies a current speaker
US7945439B2 (en) Information processing apparatus, information processing method, and computer program
US8887303B2 (en) Method and system of processing annotated multimedia documents using granular and hierarchical permissions
US10645464B2 (en) Eyes free entertainment
US20210243528A1 (en) Spatial Audio Signal Filtering
US20190349641A1 (en) Content providing server, content providing terminal and content providing method
CN107403011B (en) Virtual reality environment language learning implementation method and automatic recording control method
KR20140081636A (en) Method and terminal for reproducing content
CN111527746B (en) Method for controlling electronic equipment and electronic equipment
KR20100095633A (en) Method and apparatus for playing pictures
KR101713626B1 (en) Tagging system and method for sound data
KR102086780B1 (en) Method, apparatus and computer program for generating cartoon data
CN108108143B (en) Recording playback method, mobile terminal and device with storage function
JP2018005011A (en) Presentation support device, presentation support system, presentation support method and presentation support program
JP2011135390A (en) System, method, and program for recording and abstracting conference
KR20090124240A (en) Device for caption edit and method thereof
KR102401430B1 (en) Method and Apparatus for Automatic Creating of Moving Image Data based on Storyboard
CN114564952A (en) Text title generation method, device, equipment and medium
CN104123112A (en) Image processing method and electronic equipment
KR101336256B1 (en) Method and apparatus for tagging multimedia contents based upon voice
KR100944958B1 (en) Apparatus and Server for Providing Multimedia Data and Caption Data of Specified Section
KR101562901B1 (en) System and method for supporing conversation
US20190179892A1 (en) Cognitive presentation system and method
KR102673213B1 (en) Method for synchronizing audio data and contents data and cloud server thereof
KR100688050B1 (en) Mobile Communication Device For Store Of A Data And Providing Method Data Storing Service Thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200121

Year of fee payment: 6