KR20210158383A - A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same - Google Patents

A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same Download PDF

Info

Publication number
KR20210158383A
KR20210158383A KR1020217040505A KR20217040505A KR20210158383A KR 20210158383 A KR20210158383 A KR 20210158383A KR 1020217040505 A KR1020217040505 A KR 1020217040505A KR 20217040505 A KR20217040505 A KR 20217040505A KR 20210158383 A KR20210158383 A KR 20210158383A
Authority
KR
South Korea
Prior art keywords
data
transcription
speakers
unit data
unit
Prior art date
Application number
KR1020217040505A
Other languages
Korean (ko)
Inventor
지창진
김선태
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Publication of KR20210158383A publication Critical patent/KR20210158383A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명의 일 실시 예에 따른 복수의 화자들에 대한 전사 데이터를 생성하는 방법은, 복수의 화자들에 대한 음성 데이터를 입력받는 단계; 상기 음성 데이터를 전사(transcription)하여 전사 데이터를 생성하는 단계; 화자 및 컨텍스트(context)에 따라 전사 데이터를 복수의 단위 데이터들로 구분하는 단계; 및 상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 저장하는 단계를 포함할 수 있다.According to an embodiment of the present invention, there is provided a method of generating transcription data for a plurality of speakers, the method comprising: receiving voice data for a plurality of speakers; generating transcription data by transcription of the voice data; dividing the transcription data into a plurality of unit data according to a speaker and a context; and storing the transcription data obtained by dividing each of the plurality of unit data.

Description

복수의 화자들에 대한 전사 데이터를 생성 및 관리하는 방법 및 이를 수행하는 전사 장치A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same

본 발명은 복수의 화자들에 대한 전사 데이터를 생성 및 관리하는 방법 및 이를 수행하는 전사 장치에 관한 것이다.The present invention relates to a method for generating and managing transcription data for a plurality of speakers, and a transcription apparatus for performing the same.

자동 음성 인식 학습 시 원천 데이터가 음성만 있을 경우 문자열로 변환하는 전사 과정이 필수적이다. 이러한 전사 과정을 수작업으로 할 경우 막대한 시간과 비용을 소모하게 된다. 따라서, 전사 장치(transcription device)를 이용하여 음성 데이터를 전사를 하게 되는데, 전사 장치란 음성 데이터를 자동으로 텍스트로 변환하기 위한 장치이며, 이를 이용하여 음성 데이터를 쉽고 빠르게 텍스트로 변환할 수 있다.In automatic speech recognition learning, if the source data is only voice, the transcription process of converting it into a string is essential. If this transfer process is done manually, it consumes a huge amount of time and money. Accordingly, voice data is transcribed using a transcription device. The transcription device is a device for automatically converting voice data into text. Using this, voice data can be easily and quickly converted into text.

도 1은 종래의 전사 장치의 일 예시 및 이를 이용할 때의 문제점을 나타낸다.1 shows an example of a conventional transfer apparatus and a problem when using the same.

도 1을 참조하면, 제1 화자와 제2 화자와의 대화를 전사하는 경우, 음성 데이터는 제1 화자의 음성 데이터와 제2 화자의 음성 데이터가 뒤섞인 상태로 입력될 수 있다.Referring to FIG. 1 , when a conversation between a first speaker and a second speaker is transcribed, voice data may be input in a state in which the voice data of the first speaker and the voice data of the second speaker are mixed.

예컨대, 제1 화자의 "오늘은 자연언어처리에 대해서 배워보도록 하겠습니다"라는 데이터가 입력된 후, 제2 화자의 "질문이 있습니다" 및 "몇 시에 수업을 마치나요"라는 데이터가 입력이 되고, 다시 제1 화자의 "수업은 1시에 마치도록 하겠습니다" 라는 데이터가 입력되는 경우, 종래의 전사 장치는 "오늘은 자연언어처리에", "대해서 배워보도록", "하겠습니다 질문이 있습니다", "몇시에 수업을 마치나요 수업은", "1시에 마치도록 하겠습니다"와 같이 화자가 바뀌는 것과 무관한 부분에서 경계를 나누거나 전체에 대해 경계를 나누지 않고 전사를 수행한다. 즉, 종래의 전사 장치는 전사 과정에서 제1 화자와 제2 화자를 분리하지 않은 문제가 있었다.For example, after the first speaker's data "We will learn about natural language processing today" is input, the second speaker's data "I have a question" and "What time do you finish class?" , when the first speaker's data "I will finish the class at 1 o'clock" is input again, the conventional transcription device uses "Natural language processing today", "Let's learn about it", "I'll do it, I have a question", Transcribing is performed without dividing boundaries in parts that have nothing to do with changing the speaker, such as "What time does the class finish?" and "I will finish the class at 1 o'clock", or the whole. That is, the conventional transcription apparatus has a problem in that the first speaker and the second speaker are not separated during the transcription process.

또한, 제1 화자의 "안녕하세요 만나서 반갑습니다", "오늘의 강의를 시작합니다"가 입력되는 경우, 종래의 전사 장치는 "안녕하세요 만나서", "반갑습니다 오늘의", "강의를 시작합니다"와 같이 문맥과 무관하게 경계를 나누어 전사를 수행하는데, 이러한 경우 컨텍스트(context)를 반영하지 못하는 문제가 있었다.In addition, when the first speaker's "Hello, nice to meet you" and "Today's lecture begins" is input, the conventional transcription device includes "Hello, nice to meet you", "Starting a lecture" and Similarly, transcription is performed by dividing boundaries regardless of context. In this case, there is a problem in that the context cannot be reflected.

이와 같이, 음성 데이터를 화자 및 컨텍스트의 경계에 대한 처리 없이 전사할 경우 전사 작업의 효율이 떨어지고 학습 후의 음성인식 정확도에도 부정적인 영향을 끼친다.As such, when speech data is transcribed without processing the boundary between the speaker and the context, the efficiency of the transcription operation is lowered and the speech recognition accuracy after learning is negatively affected.

본 발명의 일 실시 예에 따른 복수의 화자들에 대한 전사 데이터를 생성하는 방법은, 복수의 화자들에 대한 음성 데이터를 입력받는 단계; 상기 음성 데이터를 전사(transcription)하여 전사 데이터를 생성하는 단계; 화자 및 컨텍스트(context)에 따라 전사 데이터를 복수의 단위 데이터들로 구분하는 단계; 및 상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 저장하는 단계를 포함할 수 있다.According to an embodiment of the present invention, there is provided a method of generating transcription data for a plurality of speakers, the method comprising: receiving voice data for a plurality of speakers; generating transcription data by transcription of the voice data; dividing the transcription data into a plurality of unit data according to a speaker and a context; and storing the transcription data obtained by dividing each of the plurality of unit data.

상기 전사 데이터를 복수의 단위 데이터들로 구분하는 단계는, 상기 화자에 따라 상기 전사 데이터를 복수의 화자들 중에서 제1 화자에 대한 제1 데이터와 복수의 화자들 중에서 제2 화자에 대한 제2 데이터로 구분하고, 상기 컨텍스트에 따라 상기 제1 데이터를 복수의 제1 단위 데이터들로 구분하고, 상기 제2 데이터를 복수의 제2 단위 데이터들로 구분할 수 있다.The dividing of the transcription data into a plurality of unit data may include dividing the transcription data according to the speaker to first data for a first speaker from among a plurality of speakers and second data for a second speaker from among the plurality of speakers. , the first data may be divided into a plurality of first unit data according to the context, and the second data may be divided into a plurality of second unit data.

상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 저장하는 단계는, 상기 제1 단위 데이터들 각각과 상기 제2 단위 데이터들 각각을 구분하여 저장할 수 있다.The storing of the transfer data obtained by dividing each of the plurality of unit data may include separately storing each of the first unit data and each of the second unit data.

상기 전사 데이터를 복수의 단위 데이터들로 구분하는 단계는, 상기 화자에 따라 상기 전사 데이터를 상기 복수의 화자들 중에서 제1 화자에 대한 제1 데이터와 상기 복수의 화자들 중에서 제2 화자에 대한 제2 데이터로 구분하는 단계 또는 상기 컨텍스트에 따라 상기 제1 데이터를 복수의 제1 단위 데이터들로 구분하고, 상기 제2 데이터를 복수의 제2 단위 데이터들로 구분하는 단계를 포함할 수 있다.The dividing of the transcription data into a plurality of unit data may include dividing the transcription data according to the speaker into first data for a first speaker among the plurality of speakers and second data for a second speaker among the plurality of speakers. The method may include dividing the first data into two data or dividing the first data into a plurality of first unit data according to the context and dividing the second data into a plurality of second unit data.

본 발명의 다른 실시 예에 따른 음성 데이터를 전사(transcription)하여 생성된 복수의 화자들에 대한 전사 데이터를 관리하는 방법은, 화자 및 컨텍스트(context)에 따라, 복수의 단위 데이터들로 구분된 상기 전사 데이터에 대한 수정 요청이 있는 경우, 상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하는 단계; 로드한 단위 데이터를 수정하는 단계; 및 수정한 단위 데이터를 다시 저장하는 단계를 포함할 수 있다.According to another embodiment of the present invention, a method for managing transcription data for a plurality of speakers generated by transcription of voice data is divided into a plurality of unit data according to a speaker and a context. loading only the unit data for which correction is requested from among the transcription data when there is a request for modification of the transcription data; modifying the loaded unit data; and storing the corrected unit data again.

상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하는 단계는, 상기 수정이 요청된 단위 데이터를 제외한 단위 데이터들은 로드하지 않고, 상기 수정한 단위 데이터를 저장하는 단계는, 상기 수정이 요청된 단위 데이터를 제외한 단위 데이터들은 다시 저장되지 않을 수 있다.The step of loading only the unit data for which correction is requested from among the transcription data does not load the unit data except for the unit data for which the correction is requested, and the step of storing the corrected unit data includes the unit data for which the correction is requested. Unit data except for may not be stored again.

상기 수정한 단위 데이터를 저장하는 단계는 상기 수정이 요청된 단위 데이터가 저장된 주소에 상기 수정한 단위 데이터를 덮어쓰기 할 수 있다.In the storing of the modified unit data, the modified unit data may be overwritten in an address where the unit data requested to be modified is stored.

본 발명의 또 다른 실시 예에 따른 복수의 화자들에 대한 전사 데이터를 생성하는 전사 장치는, 복수의 화자들에 대한 음성 데이터를 입력받는 입출력 인터페이스; 상기 전사 데이터를 저장하는 메모리; 및 상기 입출력 인터페이스 및 상기 메모리를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 음성 데이터를 전사하여 전사 데이터를 생성하고, 화자 및 컨텍스트(context)에 따라 전사 데이터를 복수의 단위 데이터들로 구분하고, 상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 상기 메모리에 저장할 수 있다.According to another embodiment of the present invention, there is provided a transcription apparatus for generating transcription data for a plurality of speakers, comprising: an input/output interface for receiving voice data for a plurality of speakers; a memory for storing the transcription data; and a processor for controlling the input/output interface and the memory, wherein the processor transcribes the voice data to generate transcribed data, divides transcribed data into a plurality of unit data according to a speaker and a context, and , the transfer data obtained by dividing each of the plurality of unit data may be stored in the memory.

본 발명의 또 다른 실시 예에 따른 복수의 화자들에 대한 전사 데이터를 관리하는 전사 장치는, 음성 데이터를 전사(transcription)하여 생성된 복수의 화자들에 대한 전사 데이터를 화자 및 컨텍스트(context)에 따라 복수의 단위 데이터들로 구분하여 저장하는 메모리; 및 상기 메모리를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 전사 데이터에 대한 수정 요청이 있는 경우, 상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하고, 로드한 단위 데이터를 수정하고, 수정한 단위 데이터를 다시 상기 메모리에 저장할 수 있다.A transcription apparatus for managing transcription data for a plurality of speakers according to another embodiment of the present invention provides transcription data for a plurality of speakers generated by transcription of voice data to a speaker and a context. a memory for dividing and storing a plurality of unit data according to the data; and a processor for controlling the memory, wherein, when there is a request for modification of the transcription data, only the unit data requested to be modified from among the transcription data is loaded, and the loaded unit data is modified and modified. The unit data may be stored again in the memory.

본 발명의 실시 예에 의하면, 화자 및 컨텍스트의 경계를 반영하여 전사를 수행함으로써, 전사의 기본 단위가 짧아지므로 긴 음성데이터를 전사할 때보다 음성의 구간 탐색이 쉬워지고 음성 및 전사 데이터의 구간별 삭제도 쉬워지므로 전체적으로 전사의 작업효율이 높아진다. 또한, 전사작업 지원을 위한 도구개발도 긴 음성데이터를 이용할 때보다 쉬워진다. 또한 전사 결과물은 문맥에 맞는 데이터만 생성되므로 이를 학습한 음성인식기는 문맥에 맞지 않는 결과를 생성할 가능성이 줄어들므로 정확도에도 긍정적인 영향을 준다.According to an embodiment of the present invention, since transcription is performed by reflecting the boundaries of the speaker and context, the basic unit of transcription is shortened, so it is easier to search for a section of speech than when long speech data is transcribed, and for each section of speech and transcription data Since it is easy to delete, the overall work efficiency of transfer is increased. In addition, the development of tools to support transcription work becomes easier than when using long voice data. In addition, since the transcription result only generates data that fits the context, the voice recognizer that learns it is less likely to generate a result that doesn't fit the context, which has a positive effect on accuracy.

도 1은 종래의 전사 장치의 일 예시 및 이를 이용할 때의 문제점을 나타낸다.
도 2는 본 발명의 일 실시 예에 따른 전사 장치를 나타내는 블록도이다.
도 3은 본 발명의 일 실시 예에 따라 전사 데이터를 생성하는 전사 장치를 나타내는 블록도이다.
도 4는 본 발명의 일 실시 예에 따라 음성 데이터를 전사하여 전사 데이터를 생성하는 방법을 나타내는 흐름도이다.
도 5는 본 발명의 다른 실시 예에 따라 전사 데이터를 관리하는 전사 장치를 나타내는 블록도이다.
도 6은 본 발명의 다른 실시 예에 따라 전사 데이터를 관리하는 방법을 나타내는 흐름도이다.
1 shows an example of a conventional transfer apparatus and a problem when using the same.
2 is a block diagram illustrating a transfer apparatus according to an embodiment of the present invention.
3 is a block diagram illustrating a transcription apparatus for generating transcription data according to an embodiment of the present invention.
4 is a flowchart illustrating a method of generating transcription data by transcription of voice data according to an embodiment of the present invention.
5 is a block diagram illustrating a transcription apparatus for managing transcription data according to another embodiment of the present invention.
6 is a flowchart illustrating a method of managing transcription data according to another embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and a method for achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and common knowledge in the technical field to which the present invention belongs It is provided to fully inform the possessor of the scope of the invention, and the present invention is only defined by the scope of the claims.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing the embodiments of the present invention, if it is determined that a detailed description of a well-known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, the terms to be described later are terms defined in consideration of functions in an embodiment of the present invention, which may vary according to intentions or customs of users and operators. Therefore, the definition should be made based on the content throughout this specification.

도 2는 본 발명의 일 실시 예에 따라 음성 데이터를 전사하여 전사 데이터를 생성하는 전사 장치를 나타내는 블록도이다.2 is a block diagram illustrating a transcription apparatus for generating transcription data by transcribed voice data according to an embodiment of the present invention.

도 2를 참조하면, 전사 장치(10)는 입출력 인터페이스(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다.Referring to FIG. 2 , the transfer apparatus 10 may include an input/output interface 110 , a processor 120 , and a memory 130 .

전사 장치(10)는 외부 장치와의 연결을 위한 입출력 인터페이스(110)를 포함할 수 있다.The transfer device 10 may include an input/output interface 110 for connection with an external device.

입출력 인터페이스(110)는 음성 데이터(VD)를 입력받는데 이용될 수 있다. 입출력 인터페이스(110)는 외부의 입력 장치를 통하여 입력된 음성 데이터(VD)를 프로세서(120)에 전달할 수 있다. 예컨대, 프로세서(120)는 입출력 인터페이스(110)를 제어하여 외부의 마이크로부터 음성 데이터(VD)를 입력받을 수 있다.The input/output interface 110 may be used to receive voice data VD. The input/output interface 110 may transmit voice data VD input through an external input device to the processor 120 . For example, the processor 120 may control the input/output interface 110 to receive voice data VD from an external microphone.

실시 예에 따라, 음성 데이터(VD)는 송수신기(140)를 통해 수신될 수도 있다. 이때, 프로세서(120)는 송수신기(140)를 이용하여 음성 데이터(VD)를 수신할 수 있다.According to an embodiment, the voice data VD may be received through the transceiver 140 . In this case, the processor 120 may receive the voice data VD using the transceiver 140 .

다른 실시 예에 따라, 도 2에 도시된 바와 달리, 음성 데이터(VD)는 전사 장치(10)에 내장된 입력 장치(예컨대, 내장 마이크)를 통해 입력될 수도 있다. 이때, 프로세서(120)는 내장된 입력 장치를 제어하여 음성 데이터(VD)를 입력받을 수 있다.According to another embodiment, unlike shown in FIG. 2 , the voice data VD may be input through an input device (eg, a built-in microphone) built in the transcription device 10 . In this case, the processor 120 may receive the voice data VD by controlling the built-in input device.

프로세서(120)는 전사 장치(10)의 동작을 전반적으로 제어할 수 있다. 프로세서(120)는 입출력 인터페이스(110) 및 메모리(130)의 동작을 제어할 수 있다.The processor 120 may control the overall operation of the transfer apparatus 10 . The processor 120 may control operations of the input/output interface 110 and the memory 130 .

프로세서(120)는 입출력 인터페이스(110)를 제어하여 음성 데이터(VD)를 입력받을 수 있다. 본 명세서에서는 입출력 인터페이스(110)를 이용하여 음성 데이터(VD)가 입력되는 예를 기준으로 설명하지만, 앞에서 설명한 바와 같이, 송수신기를 이용하여 수신되는 경우 또는 내장된 입력 장치를 통해서 입력되는 경우도 동일하게 적용할 수 있다.The processor 120 may receive voice data VD by controlling the input/output interface 110 . In the present specification, an example in which voice data VD is input using the input/output interface 110 is described as a reference. can be applied

프로세서(120)는 입력된 음성 데이터(VD)를 처리하여 전사 데이터(TD)를 생성할 수 있다. 프로세서(120)는 생성한 전사 데이터(TD)를 메모리(130)에 저장할 수 있다.The processor 120 may process the input voice data VD to generate transcription data TD. The processor 120 may store the generated transcription data TD in the memory 130 .

프로세서(120)는 화자 인식(Speaker recognition) 기술을 이용하여 음성 데이터(VD)를 분석함으로써 음성 데이터(VD)의 화자를 인식할 수 있다. 프로세서(120)는 화자 인식 기술을 이용하여 음성 데이터(VD)를 화자 별로 구분(분리)할 수 있다. 프로세서(120)는 화자 별로 구분하여 생성된 전사 데이터(TD)를 분리하여 메모리(130)에 저장할 수 있다. 전사 데이터(TD)는, 전사 데이터(TD)가 화자 별로 구분하여 관리될 수 있도록, 화자 별로 구분된 복수의 단위 데이터들을 포함할 수 있다.The processor 120 may recognize a speaker of the voice data VD by analyzing the voice data VD using a speaker recognition technology. The processor 120 may classify (separate) the voice data VD for each speaker using speaker recognition technology. The processor 120 may separate the transcribed data TD generated for each speaker and store it in the memory 130 . The transcription data TD may include a plurality of unit data divided for each speaker so that the transcription data TD can be managed separately for each speaker.

또한, 프로세서(120)는 종점 검출(Endpoint Detection) 기법을 이용하여 음성 데이터(VD)를 분석함으로써 음성 데이터(VD)의 컨텍스트(context)를 인식할 수 있다. 프로세서(120)는 종점 검출(Endpoint Detection) 기법을 이용하여 음성 데이터(VD)를 컨텍스트 별로 구분할 수 있다. 프로세서(120)는 컨텍스트 별로 구분하여 생성된 전사 데이터(TD)를 메모리(130)에 저장할 수 있다.In addition, the processor 120 may recognize the context of the voice data VD by analyzing the voice data VD using an endpoint detection technique. The processor 120 may classify the voice data VD for each context by using an endpoint detection technique. The processor 120 may store the transcription data TD generated by classifying each context in the memory 130 .

실시 예에 따라, 컨텍스트는 문장을 의미할 수도 있고, 문맥 또는 주제를 의미할 수도 있다. 즉, 컨텍스트가 문장을 의미하는 경우, 프로세서(120)는 음성 데이터(VD)를 문장 별로 구분하고, 구분한 문장들을 분리하여 메모리(130)에 저장할 수 있다. 전사 데이터(TD)가 문장 별로 구분하여 관리될 수 있도록, 전사 데이터(TD)는 구분된 각 문장에 대응되는 복수의 단위 데이터들을 포함할 수 있다.According to an embodiment, the context may mean a sentence or may mean a context or a subject. That is, when the context means a sentence, the processor 120 may classify the voice data VD for each sentence, and store the divided sentences in the memory 130 . The transcription data TD may include a plurality of unit data corresponding to each divided sentence so that the transcription data TD can be managed separately for each sentence.

즉, 프로세서(120)는 화자 및 컨텍스트에 따라 음성 데이터(VD)를 분석하고, 분석된 화자 및 컨텍스트에 기초하여 전사 데이터(TD)를 생성할 수 있다. 프로세서(120)는 화자 및 컨텍스트 별로 전사 데이터(TD)를 관리하기 위하여, 전사 데이터(TD)를 화자 및 컨텍스트 별로 구분할 수 있다. 프로세서(120)는 화자 및 컨텍스트 별로 구분하여 생성된 복수의 단위 데이터들을 포함하는 전사 데이터(TD)를 메모리(120)에 저장할 수 있다.That is, the processor 120 may analyze the voice data VD according to the speaker and the context, and generate the transcription data TD based on the analyzed speaker and the context. In order to manage the transcription data TD for each speaker and context, the processor 120 may classify the transcription data TD for each speaker and context. The processor 120 may store the transcription data TD including a plurality of unit data generated by dividing for each speaker and each context in the memory 120 .

전사 데이터(TD)의 수정이 요청되는 경우, 프로세서(120)는 메모리(130)로부터 전사 데이터(TD)를 로드할 수 있다. 프로세서(120)는 전사 데이터(TD) 중에서 수정이 요청된 단위 데이터 만을 로드할 수 있다. 프로세서(120)는 로드한 단위 데이터를 수정하고, 수정이 완료되는 경우, 수정된 단위 데이터를 메모리(120)에 저장할 수 있다. 실시 예에 따라, 수정된 데이터는 수정이 요청된 단위 데이터가 저장된 주소에 저장될 수 있다.When correction of the transcription data TD is requested, the processor 120 may load the transcription data TD from the memory 130 . The processor 120 may load only the unit data requested to be modified among the transcription data TD. The processor 120 may modify the loaded unit data, and when the modification is completed, store the modified unit data in the memory 120 . According to an embodiment, the corrected data may be stored in an address in which the unit data for which the correction is requested is stored.

전사 데이터(TD)를 단위 데이터 별로 분리하여 저장함으로써, 전사 데이터(TD) 중에서 수정과 관련이 없는 단위 데이터들은 그대로 둔 채, 수정된 단위 데이터 만을 메모리(130)에 저장할 수 있다.By storing the transcription data TD separately for each unit data, only the corrected unit data may be stored in the memory 130 while leaving unit data not related to correction among the transcription data TD as they are.

메모리(130)는 프로세서(120)의 제어에 따라 전사 데이터(TD)를 저장할 수 있다. 또한, 메모리(130)에 저장된 전사 데이터(TD)는 프로세서(120)의 제어에 따라 단위 데이터 별로 로드될 수 있다.The memory 130 may store the transcription data TD under the control of the processor 120 . Also, the transcription data TD stored in the memory 130 may be loaded for each unit of data under the control of the processor 120 .

도 3은 본 발명의 일 실시 예에 따라 전사 데이터를 생성하는 전사 장치를 나타내는 블록도이다.3 is a block diagram illustrating a transcription apparatus for generating transcription data according to an embodiment of the present invention.

도 3을 참조하면, 제1 화자와 제2 화자의 대화를 포함하는 음성 데이터(VD)가 입출력 인터페이스(110)를 이용하여 입력될 수 있다.Referring to FIG. 3 , voice data VD including a conversation between a first speaker and a second speaker may be input using the input/output interface 110 .

프로세서(120)는 음성 데이터(VD)에 대해 전사를 수행하고, 화자 및 컨텍스트 별로 구분하여 전사 데이터(TD)를 생성할 수 있다. 프로세서(120)는 전사 데이터(TD)를 메모리(130)에 저장할 수 있다.The processor 120 may perform transcription on the voice data VD, and may generate the transcription data TD by dividing the voice data VD by speakers and contexts. The processor 120 may store the transcription data TD in the memory 130 .

음성 데이터(VD)는 시간 순서대로 제1 화자가 말한 "안녕하세요 만나서 반갑습니다. 오늘의 강의를 시작합니다. 오늘은 자연언어처리에 대해서 배워보도록 하겠습니다."를 포함하고, 제2 화자가 말한 "질문이 있습니다. 몇 시에 수업을 마치나요"를 포함하고, 제1 화자가 말한 "수업은 1시에 마치도록 하겠습니다"를 포함할 수 있다.Speech data (VD) includes "Hello, nice to meet you. Today's lecture. Let's learn about natural language processing today" said by the first speaker in chronological order, and "questions" said by the second speaker. There is this. What time do you finish class?" and "The class will finish at 1 o'clock" said by the first speaker.

프로세서(120)는 음성 데이터(VD)에 대해 화자 및 컨텍스트 별로 구분하여 전사를 수행할 수 있다. 전사의 결과로서, 제1 화자의 제1 문장에 대한 제1 단위 데이터(안녕하세요 만나서 반갑습니다)(SP1-1), 제1 화자의 제2 문장에 대한 제2 단위 데이터(오늘의 강의를 시작합니다)(SP1-2), 제1 화자의 제3 문장에 대한 제3 단위 데이터(오늘은 자연언어처리에 대해서 배워보도록 하겠습니다)(SP1-3), 제1 화자의 제4 문장에 대한 제4 단위 데이터(수업은 1시에 마치도록 하겠습니다)(SP1-4), 제2 화자의 제1 문장에 대한 제5 단위 데이터(질문이 있습니다)(SP2-1), 제2 화자의 제2 문장에 대한 제6 단위 데이터(몇 시에 수업을 마치나요)(SP2-2)를 포함하는 전사 데이터(TD)가 생성될 수 있다.The processor 120 may perform transcription by dividing the voice data VD for each speaker and context. As a result of the transcription, the first unit data for the first sentence of the first speaker (hello, nice to meet you) (SP1-1), the second unit data for the second sentence of the first speaker (we start today's lecture) ) (SP1-2), the 3rd unit data for the 3rd sentence of the 1st speaker (we will learn about natural language processing today) (SP1-3), the 4th unit for the 4th sentence of the 1st speaker Data (We will finish the class at 1 o’clock) (SP1-4), the 5th unit data for the second speaker’s first sentence (I have a question) (SP2-1), the second speaker’s second sentence Transcription data TD including the sixth unit data (what time does class finish) (SP2-2) may be generated.

단위 데이터 별로 관리될 수 있도록 전사 데이터(TD)는 화자 및 컨텍스트 별로 생성된 단위 데이터 별로 분리하여 저장될 수 있다. 실시 예에 따라, 도 3에 도시된 바와 같이, 전사 데이터(TD)는 제1 화자에 대한 제1 데이터(SP1)와 제2 화자에 대한 제2 데이터(SP2)로 구분되고, 제1 데이터(SP1)는 제1 단위 데이터(SP1-1), 제2 단위 데이터(SP1-2), 제3 단위 데이터(SP1-3) 및 제4 단위 데이터(SP1-4)를 포함하고, 제2 데이터(SP2)는 제5 단위 데이터(SP2-1) 및 제6 단위 데이터(SP2-2)를 포함할 수 있다.The transcription data TD may be stored separately for each unit data generated for each speaker and each context so that it can be managed for each unit data. According to an embodiment, as shown in FIG. 3 , the transcription data TD is divided into first data SP1 for the first speaker and second data SP2 for the second speaker, and the first data ( SP1) includes first unit data SP1-1, second unit data SP1-2, third unit data SP1-3, and fourth unit data SP1-4, and the second data unit SP1-4 SP2) may include fifth unit data SP2-1 and sixth unit data SP2-2.

도 4는 본 발명의 일 실시 예에 따라 음성 데이터를 전사하여 전사 데이터를 생성하는 방법을 나타내는 흐름도이다.4 is a flowchart illustrating a method of generating transcription data by transcription of voice data according to an embodiment of the present invention.

도 4를 참조하면, 전사 장치(10)는 입출력 인터페이스(110)를 통해 복수의 화자들에 대한 음성 데이터(VD)를 입력받을 수 있다(S400). 전사 장치(10)에 포함된 프로세서(120)는 입력받은 음성 데이터(VD)를 전사하여 전사 데이터(TD)를 생성할 수 있다(S410). 프로세서(120)는 전사 데이터(TD)를 생성할 때 전사 데이터(TD)를 화자 및 컨텍스트에 따라 복수의 단위 데이터들(SP1-1, SP1-2, SP1-3, SP1-4, SP2-1 및 SP2-2)로 구분하여 생성할 수 있다(S420).Referring to FIG. 4 , the transcription apparatus 10 may receive voice data VD for a plurality of speakers through the input/output interface 110 ( S400 ). The processor 120 included in the transcription apparatus 10 may transcribe the input voice data VD to generate the transcription data TD (S410). When generating the transcription data TD, the processor 120 converts the transcription data TD into a plurality of unit data SP1-1, SP1-2, SP1-3, SP1-4, SP2-1 according to a speaker and a context. and SP2-2) can be divided and generated (S420).

프로세서(120)는 복수의 단위 데이터들(SP1-1, SP1-2, SP1-3, SP1-4, SP2-1 및 SP2-2)로 구분된 전사 데이터(TD)를 메모리(130)에 저장할 수 있다(S430). 이때, 프로세서(120)는 복수의 단위 데이터들(SP1-1, SP1-2, SP1-3, SP1-4, SP2-1 및 SP2-2)을 각각 분리하여 메모리(130)에 저장할 수 있다.The processor 120 stores the transcription data TD divided into a plurality of unit data SP1-1, SP1-2, SP1-3, SP1-4, SP2-1 and SP2-2 in the memory 130 . can be (S430). In this case, the processor 120 may separate the plurality of unit data SP1-1, SP1-2, SP1-3, SP1-4, SP2-1, and SP2-2, respectively, and store them in the memory 130 .

도 5는 본 발명의 다른 실시 예에 따라 전사 데이터를 관리하는 전사 장치를 나타내는 블록도이다.5 is a block diagram illustrating a transcription apparatus for managing transcription data according to another embodiment of the present invention.

도 5를 참조하면, 도 3 및 도 4를 통해 설명한 방법으로 전사 데이터(TD)는 화자 및 컨텍스트 별로 구분된 복수의 단위 데이터들을 포함하여 메모리(130)에 기 저장되어 있다.Referring to FIG. 5 , in the method described with reference to FIGS. 3 and 4 , the transcription data TD is pre-stored in the memory 130 including a plurality of unit data classified for each speaker and context.

전사 데이터(TD)에 대한 수정 요청이 있을 경우, 프로세서(120)는 수정이 요청된 단위 데이터(본 명세서에서는 설명의 편의상 SP1-4를 예시로 들기로 한다)를 메모리(130)에서 로드할 수 있다. 이때, 프로세서(120)는 전사 데이터(TD)를 전부 로드하는 것이 아니라, 수정이 요청된 단위 데이터(SP1-4) 만을 로드할 수 있다.When there is a request to modify the transcription data TD, the processor 120 may load the requested unit data (SP1-4 is taken as an example for convenience of description in this specification) from the memory 130 . have. In this case, the processor 120 may not load all of the transcription data TD, but only the unit data SP1-4 for which correction is requested.

프로세서(120)는 로드한 제4 단위 데이터(수업은 1시에 마치도록 하겠습니다)(SP1-4)를 요청 내용에 따라 수정하고, 수정된 단위 데이터(수업은 2시에 마치도록 하겠습니다)(SP1-4M)를 메모리(130)에 저장할 수 있다. 수정된 단위 데이터(SP1-4M)는 메모리(130) 상에서 기존의 제4 단위 데이터(SP1-4)가 저장된 주소와 동일한 주소에 저장될 수 있다. 이때, 전사 데이터(TD) 중에서 수정된 단위 데이터(SP1-4M)를 제외한 다른 단위 데이터들은 수정에 영향을 받지 않는다. 즉, 전사 데이터(TD) 중에서 수정된 단위 데이터(SP1-4M)를 제외한 다른 단위 데이터들은 제4 단위 데이터(SP1-4)의 수정으로 인하여 다시 저장되거나 덮어쓰기 되지 않는다.The processor 120 modifies the loaded fourth unit data (the class will finish at 1 o'clock) (SP1-4) according to the requested content, and the modified unit data (the class will finish at 2 o'clock) (SP1) -4M) may be stored in the memory 130 . The corrected unit data SP1-4M may be stored in the same address as the address at which the existing fourth unit data SP1-4 is stored in the memory 130 . In this case, the unit data other than the corrected unit data SP1-4M among the transcription data TD are not affected by the modification. That is, unit data other than the corrected unit data SP1-4M among the transcription data TD are not stored again or overwritten due to the modification of the fourth unit data SP1-4.

도 6은 본 발명의 다른 실시 예에 따라 전사 데이터를 관리하는 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a method of managing transcription data according to another embodiment of the present invention.

도 6을 참조하면, 전사 장치(10)가 전사 데이터(TD)에 대한 수정을 요청받는 경우(S600), 프로세서(120)는 전사 데이터(TD) 중에서 수정이 요청된 단위 데이터(SP1-4) 만을 메모리(130)로부터 로드할 수 있다(S610).Referring to FIG. 6 , when the transcription apparatus 10 receives a request for modification of the transcription data TD ( S600 ), the processor 120 performs the modification requested unit data SP1-4 among the transcription data TD. Only it can be loaded from the memory 130 (S610).

프로세서(120)는 로드한 단위 데이터(SP1-4)를 수정하고(S620), 수정한 단위 데이터(SP1-4M)를 메모리(130)에 다시 저장할 수 있다(S630).The processor 120 may correct the loaded unit data SP1-4 (S620), and store the corrected unit data SP1-4M again in the memory 130 (S630).

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Combinations of each block in the block diagram attached to the present invention and each step in the flowchart may be performed by computer program instructions. These computer program instructions may be embodied in the encoding processor of a general purpose computer, special purpose computer, or other programmable data processing equipment, such that the instructions executed by the encoding processor of the computer or other programmable data processing equipment may correspond to each block of the block diagram or Each step of the flowchart creates a means for performing the functions described. These computer program instructions may also be stored in a computer-usable or computer-readable memory that may direct a computer or other programmable data processing equipment to implement a function in a particular way, the computer-usable or computer-readable memory The instructions stored in the block diagram may also produce an item of manufacture containing instruction means for performing a function described in each block of the block diagram or each step of the flowchart. The computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operational steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to create a computer or other programmable data processing equipment. It is also possible that instructions for performing the processing equipment provide steps for carrying out the functions described in each block of the block diagram and in each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Further, each block or each step may represent a module, segment, or portion of code comprising one or more executable instructions for executing specified logical function(s). It should also be noted that in some alternative embodiments it is also possible for the functions recited in blocks or steps to occur out of order. For example, it is possible that two blocks or steps shown one after another may in fact be performed substantially simultaneously, or that the blocks or steps may sometimes be performed in the reverse order according to the corresponding function.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical spirit of the present invention, and various modifications and variations will be possible without departing from the essential quality of the present invention by those skilled in the art to which the present invention pertains. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The protection scope of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be interpreted as being included in the scope of the present invention.

Claims (11)

복수의 화자들에 대한 음성 데이터를 입력받는 단계;
상기 음성 데이터를 전사(transcription)하여 전사 데이터를 생성하는 단계;
화자 및 컨텍스트(context)에 따라 전사 데이터를 복수의 단위 데이터들로 구분하는 단계; 및
상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 저장하는 단계를 포함하는
복수의 화자들에 대한 전사 데이터를 생성하는 방법.
receiving voice data for a plurality of speakers;
generating transcription data by transcription of the voice data;
dividing the transcription data into a plurality of unit data according to a speaker and a context; and
Storing the transcription data obtained by dividing each of the plurality of unit data
A method of generating transcription data for a plurality of speakers.
제1 항에 있어서,
상기 전사 데이터를 복수의 단위 데이터들로 구분하는 단계는,
상기 화자에 따라 상기 전사 데이터를 상기 복수의 화자들 중에서 제1 화자에 대한 제1 데이터와 상기 복수의 화자들 중에서 제2 화자에 대한 제2 데이터로 구분하고,
상기 컨텍스트에 따라 상기 제1 데이터를 복수의 제1 단위 데이터들로 구분하고, 상기 제2 데이터를 복수의 제2 단위 데이터들로 구분하는
복수의 화자들에 대한 전사 데이터를 생성하는 방법.
According to claim 1,
The step of dividing the transcription data into a plurality of unit data includes:
dividing the transcription data into first data for a first speaker from among the plurality of speakers and second data for a second speaker from among the plurality of speakers according to the speakers;
dividing the first data into a plurality of first unit data according to the context and dividing the second data into a plurality of second unit data
A method of generating transcription data for a plurality of speakers.
제2 항에 있어서,
상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 저장하는 단계는,
상기 제1 단위 데이터들 각각과 상기 제2 단위 데이터들 각각을 구분하여 저장하는
복수의 화자들에 대한 전사 데이터를 생성하는 방법.
3. The method of claim 2,
Storing the transcription data obtained by dividing each of the plurality of unit data includes:
Separately storing each of the first unit data and each of the second unit data
A method of generating transcription data for a plurality of speakers.
제1 항에 있어서,
상기 전사 데이터를 복수의 단위 데이터들로 구분하는 단계는,
상기 화자에 따라 상기 전사 데이터를 상기 복수의 화자들 중에서 제1 화자에 대한 제1 데이터와 상기 복수의 화자들 중에서 제2 화자에 대한 제2 데이터로 구분하는 단계 또는 상기 컨텍스트에 따라 상기 제1 데이터를 복수의 제1 단위 데이터들로 구분하고, 상기 제2 데이터를 복수의 제2 단위 데이터들로 구분하는 단계를 포함하는
복수의 화자들에 대한 전사 데이터를 관리하는 방법.
According to claim 1,
The step of dividing the transcription data into a plurality of unit data includes:
dividing the transcription data into first data for a first speaker among the plurality of speakers and second data for a second speaker among the plurality of speakers according to the speaker or the first data according to the context classifying into a plurality of first unit data and dividing the second data into a plurality of second unit data.
A method for managing transcription data for multiple speakers.
음성 데이터를 전사(transcription)하여 생성된 복수의 화자들에 대한 전사 데이터를 관리하는 방법에 있어서,
화자 및 컨텍스트(context)에 따라, 복수의 단위 데이터들로 구분된 상기 전사 데이터에 대한 수정 요청이 있는 경우, 상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하는 단계;
로드한 단위 데이터를 수정하는 단계; 및
수정한 단위 데이터를 다시 저장하는 단계를 포함하는
복수의 화자들에 대한 전사 데이터를 관리하는 방법.
A method of managing transcription data for a plurality of speakers generated by transcription of voice data, the method comprising:
loading only the requested unit data from among the transcription data when there is a request to modify the transcription data divided into a plurality of unit data according to a speaker and a context;
modifying the loaded unit data; and
comprising the step of re-saving the modified unit data
A method for managing transcription data for multiple speakers.
제5 항에 있어서,
상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하는 단계는, 상기 수정이 요청된 단위 데이터를 제외한 단위 데이터들은 로드하지 않고,
상기 수정한 단위 데이터를 저장하는 단계는, 상기 수정이 요청된 단위 데이터를 제외한 단위 데이터들은 다시 저장되지 않는
복수의 화자들에 대한 전사 데이터를 관리하는 방법.
6. The method of claim 5,
In the step of loading only the unit data requested to be modified from among the transcription data, unit data other than the unit data for which the modification is requested is not loaded,
In the storing of the corrected unit data, unit data other than the unit data for which the correction is requested are not stored again.
A method for managing transcription data for multiple speakers.
제5 항에 있어서,
상기 수정한 단위 데이터를 저장하는 단계는,
상기 수정이 요청된 단위 데이터가 저장된 주소에 상기 수정한 단위 데이터를 덮어쓰기 하는
복수의 화자들에 대한 전사 데이터를 관리하는 방법.
6. The method of claim 5,
Storing the corrected unit data includes:
Overwriting the modified unit data to the address where the unit data requested to be modified is stored
A method for managing transcription data for multiple speakers.
복수의 화자들에 대한 전사 데이터를 생성하는 전사 장치에 있어서,
복수의 화자들에 대한 음성 데이터를 입력받는 입출력 인터페이스;
상기 전사 데이터를 저장하는 메모리; 및
상기 입출력 인터페이스 및 상기 메모리를 제어하는 프로세서를 포함하고,
상기 프로세서는,
상기 음성 데이터를 전사하여 전사 데이터를 생성하고,
화자 및 컨텍스트(context)에 따라 전사 데이터를 복수의 단위 데이터들로 구분하고,
상기 복수의 단위 데이터들 각각을 구분한 상기 전사 데이터를 상기 메모리에 저장하는
전사 장치.
A transcription apparatus for generating transcription data for a plurality of speakers, comprising:
an input/output interface for receiving voice data for a plurality of speakers;
a memory for storing the transcription data; and
a processor for controlling the input/output interface and the memory;
The processor is
transcribe the voice data to generate transcription data;
The transcription data is divided into a plurality of unit data according to the speaker and the context,
Storing the transferred data obtained by dividing each of the plurality of unit data in the memory
transcription device.
복수의 화자들에 대한 전사 데이터를 관리하는 전사 장치에 있어서,
음성 데이터를 전사(transcription)하여 생성된 복수의 화자들에 대한 전사 데이터를 화자 및 컨텍스트(context)에 따라 복수의 단위 데이터들로 구분하여 저장하는 메모리; 및
상기 메모리를 제어하는 프로세서를 포함하고,
상기 프로세서는,
상기 전사 데이터에 대한 수정 요청이 있는 경우, 상기 전사 데이터 중에서 수정이 요청된 단위 데이터만 로드하고,
로드한 단위 데이터를 수정하고,
수정한 단위 데이터를 다시 상기 메모리에 저장하는
전사 장치.
A transcription device for managing transcription data for a plurality of speakers, comprising:
a memory for classifying and storing transcription data for a plurality of speakers generated by transcription of voice data into a plurality of unit data according to a speaker and a context; and
A processor for controlling the memory,
The processor is
When there is a request for modification of the transcription data, only the unit data requested to be modified from among the transcription data is loaded;
Modify the loaded unit data,
To save the modified unit data back to the memory
transcription device.
컴퓨터 판독가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은,
제1 항 내지 제7 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는,
컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
As a computer program stored in a computer-readable recording medium,
The computer program is
8. A method comprising instructions for causing a processor to perform a method according to any one of claims 1 to 7,
A computer program stored in a computer-readable recording medium.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은,
제1 항 내지 제7 항 중 어느 한 항에 따른 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는,
컴퓨터 판독가능한 기록매체.
As a computer-readable recording medium storing a computer program,
The computer program is
8. A method comprising instructions for causing a processor to perform a method according to any one of claims 1 to 7,
computer readable recording medium.
KR1020217040505A 2019-10-31 2019-10-31 A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same KR20210158383A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/014631 WO2021085687A1 (en) 2019-10-31 2019-10-31 Method for generating and managing transcription data for plurality of speakers, and transcription device for performing same

Publications (1)

Publication Number Publication Date
KR20210158383A true KR20210158383A (en) 2021-12-30

Family

ID=75716327

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217040505A KR20210158383A (en) 2019-10-31 2019-10-31 A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same

Country Status (2)

Country Link
KR (1) KR20210158383A (en)
WO (1) WO2021085687A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153118A (en) * 1994-11-30 1996-06-11 Toshiba Corp Speech data processor
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP3526549B2 (en) * 2000-12-21 2004-05-17 株式会社ジャストシステム Speech recognition device, method and recording medium
JP2010134681A (en) * 2008-12-04 2010-06-17 Ricoh Co Ltd Lecture material preparation support system, lecture material preparation support method and lecture material preparation support program
CN106844222A (en) * 2015-12-03 2017-06-13 西安三星电子研究有限公司 The method and apparatus of the data processing of solid state hard disc

Also Published As

Publication number Publication date
WO2021085687A1 (en) 2021-05-06

Similar Documents

Publication Publication Date Title
US10726833B2 (en) System and method for rapid customization of speech recognition models
US10388284B2 (en) Speech recognition apparatus and method
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US9741343B1 (en) Voice interaction application selection
US9984679B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
KR101255402B1 (en) Redictation 0f misrecognized words using a list of alternatives
US10199034B2 (en) System and method for unified normalization in text-to-speech and automatic speech recognition
US9454525B2 (en) Information extraction in a natural language understanding system
US9431005B2 (en) System and method for supplemental speech recognition by identified idle resources
US20120084086A1 (en) System and method for open speech recognition
US9412359B2 (en) System and method for cloud-based text-to-speech web services
TW201239652A (en) Location-based conversational understanding
CN105609097A (en) Speech synthesis apparatus and control method thereof
CN104157285A (en) Voice recognition method and device, and electronic equipment
US20050256717A1 (en) Dialog system, dialog system execution method, and computer memory product
CN109616096A (en) Construction method, device, server and the medium of multilingual tone decoding figure
US8315874B2 (en) Voice user interface authoring tool
WO2017159207A1 (en) Processing execution device, method for controlling processing execution device, and control program
KR20210158383A (en) A method for generating and managing transcription data for a plurality of speakers and a transcription device performing the same
US9564121B2 (en) System and method for generalized preselection for unit selection synthesis
CN115019781A (en) Conversation service execution method, device, storage medium and electronic equipment
TW202015034A (en) Speech correction system and speech correction method
US20240143932A1 (en) Large language model utterance augmentation
JP6790791B2 (en) Voice dialogue device and dialogue method
KR20240012217A (en) Method And Apparatus for Learning Text-to-Speech Model, And Method for Synthesizing Speech

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application