KR102273147B1 - Speech synthesis device and speech synthesis method - Google Patents

Speech synthesis device and speech synthesis method Download PDF

Info

Publication number
KR102273147B1
KR102273147B1 KR1020190061001A KR20190061001A KR102273147B1 KR 102273147 B1 KR102273147 B1 KR 102273147B1 KR 1020190061001 A KR1020190061001 A KR 1020190061001A KR 20190061001 A KR20190061001 A KR 20190061001A KR 102273147 B1 KR102273147 B1 KR 102273147B1
Authority
KR
South Korea
Prior art keywords
utterance
unit
speaker
environment
determining
Prior art date
Application number
KR1020190061001A
Other languages
Korean (ko)
Other versions
KR20200134868A (en
Inventor
양일호
유하진
허희수
윤성현
Original Assignee
서울시립대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울시립대학교 산학협력단 filed Critical 서울시립대학교 산학협력단
Priority to KR1020190061001A priority Critical patent/KR102273147B1/en
Publication of KR20200134868A publication Critical patent/KR20200134868A/en
Application granted granted Critical
Publication of KR102273147B1 publication Critical patent/KR102273147B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 합성 장치가 제공된다. 상기 음성 합성 장치는 제1 화자와 제1 환경을 갖는 제1 발성을 획득하고, 제2 화자와 제2 환경을 갖는 제2 발성을 획득하는 획득 유니트; 상기 제2 화자와 상기 제1 환경을 갖는 제3 발성을 생성하는 합성 유니트;를 포함할 수 있다.A speech synthesis apparatus is provided. The speech synthesis apparatus includes: an acquisition unit for acquiring a first utterance having a first speaker and a first environment, and acquiring a second utterance having a second speaker and a second environment; and a synthesis unit generating a third utterance having the second speaker and the first environment.

Description

음성 합성 장치 및 방법{SPEECH SYNTHESIS DEVICE AND SPEECH SYNTHESIS METHOD}Speech synthesis apparatus and method {SPEECH SYNTHESIS DEVICE AND SPEECH SYNTHESIS METHOD}

본 발명은 복수의 음성 녹음 데이터에 포함된 서로 다른 인자를 선택적으로 합성할 수 있는 음성 합성 장치 및 방법에 관한 것이다.The present invention relates to a voice synthesis apparatus and method capable of selectively synthesizing different factors included in a plurality of voice recording data.

최근 음성인식 기술이 중요한 화두로서 떠오르고 있는 실정이다. 스마트폰을 비롯하여 네비게이션, 로봇제어 등의 다양한 분야에서 음성인식이 다수 사용되고 있다.Recently, voice recognition technology is emerging as an important topic. Voice recognition is widely used in various fields such as smart phones, navigation, and robot control.

최근에는 이를 넘어서 음성의 발화자를 판단하는 방법에 관하여 연구가 진행되고 있으며, 음성의 발화자를 판단하는 방법은 최근 중요시 여겨지는 보안에도 적용될 수 있어 다수의 연구가 진행되고 있는 편이다.Recently, research has been conducted on a method of determining a speaker of a voice beyond this, and a method of determining a speaker of a voice can be applied to security, which is considered important recently, and thus a number of studies are being conducted.

발화자를 판단하는 방법의 경우, 가우시안 혼합 모델(GMM, Gaussian mixture model)을 이용하는 방법이 널리 알려져 있다. 이때 가우시안 혼합 모델을 이용하는 화자 인식시스템이 높은 정확도를 갖기 위해서는 대량의 학습 발화가 필요하고, 사전에 다수인의 대량 발화를 이용하여 배경 화자 모델(Universal background model)을 구축 후, 사용자의 소량 발화를 이용하여 적응 학습하는 GMM-UBM(Gaussian mixture model - universal background model) 방법이 이용되고 있다.In the case of a method of determining a speaker, a method using a Gaussian mixture model (GMM, Gaussian mixture model) is widely known. At this time, in order for the speaker recognition system using the Gaussian mixture model to have high accuracy, a large amount of learning utterances are required. GMM-UBM (Gaussian mixture model - universal background model) method of adaptive learning using

한국등록특허공보 제10-1618512호에는 사용자 모델의 보완을 위해 부족한 음소를 판단하고 추가 학습용 발화의 선택에 있어서 배경 화자 모델 대비 화자 모델 분산의 비율을 이용하여 추가 학습 발화를 선택하는 시스템이 나타나 있다.Korean Patent Publication No. 10-1618512 discloses a system for judging insufficient phonemes to complement the user model and selecting additional learning utterances using the ratio of the variance of the speaker model to the background speaker model in selecting utterances for additional learning. .

한국등록특허공보 제10-1618512호Korean Patent Publication No. 10-1618512

본 발명은 실제의 목소리에 다양한 주변 잡음을 실제처럼 합성할 수 있는 음성 합성 장치를 제공하기 위한 것이다.An object of the present invention is to provide a voice synthesizer capable of synthesizing a real voice with various ambient noises.

본 발명의 음성 합성 장치는 목소리 데이터를 포함하는 화자가 정의되고, 주변 잡음 데이터를 포함하는 환경이 정의되며, 상기 화자와 상기 환경이 포함된 발성이 정의될 때, 제1 화자와 제1 환경을 갖는 제1 발성을 획득하고, 제2 화자와 제2 환경을 갖는 제2 발성을 획득하는 획득 유니트; 상기 제2 화자와 상기 제1 환경을 갖는 제3 발성을 생성하는 합성 유니트;를 포함할 수 있다.In the speech synthesis apparatus of the present invention, when a speaker including voice data is defined, an environment including ambient noise data is defined, and a speech including the speaker and the environment is defined, the first speaker and the first environment are defined. an acquisition unit configured to acquire a first utterance having a second utterance and a second utterance having a second speaker and a second environment; and a synthesis unit generating a third utterance having the second speaker and the first environment.

본 발명의 음성 합성 장치는 기녹음된 음성 데이터에 해당하는 제1 발성과 새롭게 입수된 음성 데이터에 해당하는 제2 발성을 획득하는 획득 유니트; 상기 제1 발성의 목소리와 상기 제2 발성의 목소리 간의 일치 여부를 판단하는 인식 유니트; 상기 인식 유니트의 판단 정확도를 개선하기 위해 상기 인식 유니트로 입력되는 상기 제1 발성 또는 상기 제2 발성을 조작하는 합성 유니트;를 포함하고, 상기 합성 유니트는 상기 제1 발성에 포함된 주변 잡음을 상기 제2 발성에 포함된 주변 잡음으로 대체하거나, 상기 제2 발성에 포함된 주변 잡음을 상기 제1 발성에 포함된 주변 잡음으로 대체할 수 있다.A speech synthesis apparatus of the present invention includes: an acquisition unit for acquiring a first speech corresponding to pre-recorded speech data and a second speech corresponding to newly acquired speech data; a recognition unit for determining whether the first uttered voice matches the second uttered voice; and a synthesizing unit that manipulates the first or second utterance input to the recognition unit to improve determination accuracy of the recognition unit, wherein the synthesizing unit detects the ambient noise included in the first utterance. The ambient noise included in the second utterance may be substituted, or the ambient noise included in the second utterance may be replaced with the ambient noise included in the first utterance.

본 발명의 음성 합성 장치는 실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부; 상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고, 상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성할 수 있다.A speech synthesizing apparatus of the present invention includes: a generator for generating a third utterance based on an actual first utterance, an actual second utterance, and random noise; and a determining unit configured to determine the authenticity of the third utterance with respect to the second utterance, wherein the generator includes the second utterance in a direction in which the first environment of the first utterance is included in the second speaker of the second utterance. Can create 3 vocalizations.

본 발명의 음성 합성 방법은 실제의 제1 발성과 실제의 제2 발성이 획득되면, 상기 제1 발성에 서로 다른 복수의 환경이 부가된 복수의 가공 발성을 생성하고, 상기 가공 발성의 환경과 상기 제2 발성의 화자가 포함된 제3 발성을 생성할 수 있다.In the speech synthesis method of the present invention, when an actual first utterance and a second actual utterance are obtained, a plurality of fictitious utterances in which a plurality of different environments are added to the first utterance are generated, and the environment of the simulated utterance and the A third utterance including the speaker of the second utterance may be generated.

본 발명의 음성 합성 장치 및 방법에 따르면, 제1 발성과 제2 발성이 존재할 때, 제1 발성의 환경과 제2 발성의 화자가 합성된 새로운 제3 발성이 생성될 수 있다.According to the speech synthesis apparatus and method of the present invention, when the first utterance and the second utterance exist, a new third utterance in which the environment of the first utterance and the speaker of the second utterance are synthesized may be generated.

본 발명에 따라 생성된 제3 발성은 화자 식별, 화자 확인, 오락, 레저 등 다양한 분야에 사용될 수 있다.The third utterance generated according to the present invention may be used in various fields such as speaker identification, speaker identification, entertainment, and leisure.

일 예로, 화자 식별 또는 화자 확인의 경우, 사용자의 목소리에 해당하는 화자 외의 주변 환경이 정확도에 매우 중요한 인자로 작용할 수 있다. 본 발명에 따르면, 제1 발성의 환경과 동일한 환경을 갖는 제3 발성이 화자 식별 또는 화자 확인에 이용될 수 있다. 제3 발성은 제1 발성의 환경, 제2 발성의 화자를 갖는 상태이다. 따라서, 제1 발성과 제3 발성을 비교하면, 동일한 환경에서 제1 발성의 화자와 제2 발성의 화자가 비교될 수 있다. 그 결과, 제1 발성의 화자와 제2 발성의 화자 간의 비교 정확도가 대폭 개선될 수 있다.For example, in the case of speaker identification or speaker identification, a surrounding environment other than the speaker corresponding to the user's voice may act as a very important factor for accuracy. According to the present invention, a third utterance having the same environment as that of the first utterance may be used for speaker identification or speaker confirmation. The third utterance is a state in which the environment of the first utterance and the speaker of the second utterance are present. Accordingly, when the first utterance and the third utterance are compared, the speaker of the first utterance and the speaker of the second utterance may be compared in the same environment. As a result, comparison accuracy between the speaker of the first utterance and the speaker of the second utterance may be significantly improved.

일 예로, 사용자는 특정 환경에서 자신의 목소리가 녹음된 녹음 데이터(발성)에 다른 환경을 합성함으로써 색다른 녹음 데이터를 획득할 수 있다. 이렇게 획득된 녹음 데이터는 게임, 오락, 놀이, 광고, 홍보 등 다양한 분야에 사용될 수 있다.For example, the user may acquire different recorded data by synthesizing another environment with the recorded data (voicing) in which his or her voice is recorded in a specific environment. The recorded data thus obtained can be used in various fields such as games, entertainment, play, advertisements, and public relations.

본 발명의 음성 합성 장치 및 방법은 실제의 제1 환경에서 실제의 제2 화자가 녹음되지 않은 상황에서, 제1 환경에서 제2 화자가 실제로 녹음된 것과 같은 제3 발성을 생성하는 것을 목표로 할 수 있다. 실제와 구분하기 어려운 제3 발성을 획득하기 위해 본 발명은 GAN(Generative Adversarial Network) 기법을 적용할 수 있다.The speech synthesis apparatus and method of the present invention may aim to generate a third utterance as if the second speaker was actually recorded in the first environment, in a situation where the actual second speaker was not recorded in the first real environment. can In order to obtain a third utterance that is difficult to distinguish from the real one, the present invention may apply a Generative Adversarial Network (GAN) technique.

본 발명은 제3 발성을 생성하기 위해 GAN의 입력 인자 등을 새롭게 정의할 수 있다. 본 발명은 새롭게 정의된 인자를 GAN에 적용하여, 서로 다른 발성의 환경과 화자가 합성된 제3 발성을 획득할 수 있다.In the present invention, input factors of GAN, etc. may be newly defined in order to generate the third utterance. According to the present invention, by applying a newly defined factor to the GAN, it is possible to obtain a third utterance in which different utterance environments and speakers are synthesized.

도 1은 본 발명의 음성 합성 장치를 나타낸 블록도이다.
도 2는 본 발명의 합성 유니트의 동작을 나타낸 개략도이다.
도 3은 페이스북의 real-eye-opener를 나타낸 사진이다.
도 4는 원본 데이터베이스를 나타낸 개략도이다.
도 5는 가공 발성의 생성 과정을 나타낸 개략도이다.
도 6은 판별부를 나타낸 개략도이다.
도 7은 판별부의 동작을 나타낸 개략도이다.
도 8은 생성부를 나타낸 개략도이다.
도 9는 일 실시예의 합성 유니트를 나타낸 개략도이다.
도 10은 본 발명의 음성 합성 방법을 나타낸 흐름도이다.
도 11은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다.
1 is a block diagram showing a speech synthesis apparatus of the present invention.
2 is a schematic diagram showing the operation of the synthesis unit of the present invention.
3 is a picture showing Facebook's real-eye-opener.
4 is a schematic diagram showing an original database.
5 is a schematic diagram showing a process of generating a work voice.
6 is a schematic diagram showing a discrimination unit.
7 is a schematic diagram showing the operation of the discrimination unit.
8 is a schematic diagram illustrating a generator.
9 is a schematic diagram showing a synthesis unit according to an embodiment.
10 is a flowchart illustrating a speech synthesis method of the present invention.
11 is a diagram illustrating a computing device according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.In the present specification, duplicate descriptions of the same components will be omitted.

또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.Also, in this specification, when it is mentioned that a certain element is 'connected' or 'connected' to another element, it may be directly connected or connected to the other element, but another element in the middle. It should be understood that there may be On the other hand, in this specification, when it is mentioned that a certain element is 'directly connected' or 'directly connected' to another element, it should be understood that the other element does not exist in the middle.

또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.In addition, the terms used herein are used only to describe specific embodiments, and are not intended to limit the present invention.

또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. Also, in this specification, the singular expression may include the plural expression unless the context clearly dictates otherwise.

또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.Also in this specification, terms such as 'include' or 'have' are only intended to designate that the features, numbers, steps, operations, components, parts, or combinations thereof described in the specification exist, and one or more It should be understood that the existence or addition of other features, numbers, steps, operations, components, parts or combinations thereof is not precluded in advance.

또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.Also in this specification, the term 'and/or' includes a combination of a plurality of listed items or any of a plurality of listed items. In this specification, 'A or B' may include 'A', 'B', or 'both A and B'.

또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.Also, in this specification, detailed descriptions of well-known functions and configurations that may obscure the gist of the present invention will be omitted.

도 1은 본 발명의 음성 합성 장치를 나타낸 블록도이다.1 is a block diagram showing a speech synthesis apparatus of the present invention.

목소리 데이터를 포함하는 화자 정보(본 명세서에서는 '화자'로 지칭함)가 정의될 수 있다. 본 명세서에서 화자는 말을 하는 사람을 의미하거나, 말을 하는 사람을 특정지을 수 있는 목소리(정보)를 나타낼 수 있다.Speaker information including voice data (referred to as 'speaker' in this specification) may be defined. In this specification, a speaker may mean a person speaking or may represent a voice (information) that can specify a person speaking.

주변 잡음 데이터를 포함하는 환경 정보(본 명세서에서는 '환경'으로 지칭함)가 정의될 수 있다. 환경은 발화자의 목소리 녹음시 함께 녹음된 주변의 다른 소리를 포함할 수 있다. 이외에도 환경은 녹음 데이터의 저장 또는 전송시 거치는 코덱의 종류 등의 하드웨어적 노이즈를 포함할 수 있다.Environment information (referred to as 'environment' in this specification) including ambient noise data may be defined. The environment may include other ambient sounds recorded together with the recording of the speaker's voice. In addition, the environment may include hardware noise such as a type of codec passed through when storing or transmitting recorded data.

화자와 환경이 포함된 발성 정보(본 명세서에서는 '발성'으로 지칭함)가 정의될 수 있다. 발성은 발화자의 목소리와 주변 잡음 등이 섞인 총체적 소리 정보를 포함할 수 있다. 수화자는 발화자의 목소리만 듣는 것이 아니라 주변 잡음이 섞인 발성을 듣게 된다. 외형적으로 발성은 마이크 등을 통해 발화자의 목소리가 녹음된 녹음 데이터를 포함할 수 있다. 이때의 녹음 데이터에는 발화자의 목소리뿐만 아니라 주변의 각종 잡음, 코덱 잡음이 포함될 수 있다. Vocal information including a speaker and an environment (referred to as 'voicing' in this specification) may be defined. The vocalization may include total sound information in which the speaker's voice and ambient noise are mixed. The listener hears not only the speaker's voice, but also a vocalization mixed with ambient noise. Externally, the vocalization may include recorded data in which the speaker's voice is recorded through a microphone or the like. In this case, the recorded data may include not only the speaker's voice, but also various surrounding noises and codec noise.

도 1에 도시된 음성 합성 장치는 획득 유니트(110), 합성 유니트(130), 인식 유니트(150)를 포함할 수 있다.The speech synthesis apparatus shown in FIG. 1 may include an acquisition unit 110 , a synthesis unit 130 , and a recognition unit 150 .

획득 유니트(110)는 제1 화자와 제1 환경을 갖는 제1 발성 ①을 획득할 수 있다. 또한, 획득 유니트(110)는 제2 화자와 제2 환경을 갖는 제2 발성 ②를 획득할 수 있다.The acquisition unit 110 may acquire the first utterance ① having the first speaker and the first environment. Also, the acquisition unit 110 may acquire the second utterance ② having the second speaker and the second environment.

제1 발성 ①은 기등록된 등록 발성과 새롭게 입수된 테스트 발성 중 어느 하나일 수 있다. 제2 발성 ②는 등록 발성과 테스트 발성 중 나머지 하나일 수 있다.The first vocalization ① may be any one of a previously registered registered voice and a newly acquired test voice. The second utterance ② may be the other one of the registered utterance and the test utterance.

합성 유니트(130)는 제2 화자와 제1 환경을 갖는 제3 발성 ③을 생성할 수 있다.The synthesis unit 130 may generate a third utterance ③ having the second speaker and the first environment.

제3 발성 ③은 스피커 등의 음향 출력 수단을 통해 외부로 출력되거나, 기계적으로 사용자를 인식하는 인식 유니트(150)로 제공될 수 있다.The third utterance ③ may be output to the outside through a sound output means such as a speaker, or may be provided to the recognition unit 150 that mechanically recognizes the user.

인식 유니트(150)는 식별부(151) 및 확인부(153) 중 적어도 하나를 포함할 수 있다.The recognition unit 150 may include at least one of an identification unit 151 and a verification unit 153 .

식별부(151) 또는 확인부(153)는 제1 발성과 제3 발성을 비교할 수 있다. 식별부(151)와 확인부(153)는 제1 발성과 제3 발성의 비교 결과를 다른 방식으로 사용하는 점에서 차이가 있다.The identification unit 151 or the confirmation unit 153 may compare the first utterance and the third utterance. The identification unit 151 and the confirmation unit 153 are different from each other in that they use a comparison result of the first and third utterances in different ways.

본 발명의 인식 유니트(150)는 화자 또는 사용자를 인식하기 위한 것일 수 있다. 화자 인식은 입력 음성 신호가 어떤 사람의 목소리인지 인식하는 기술일 수 있다.The recognition unit 150 of the present invention may be for recognizing a speaker or a user. The speaker recognition may be a technology for recognizing which person's voice the input voice signal is.

화자 인식은 음성 인식과 구별될 수 있다. 음성 인식은 사용자가 '무엇을 말했는지'와 같이 말한 내용을 인식하는 기술에 해당될 수 있다. 반면, 화자 인식은 '누가 말했는지'와 같이 말한 사람을 인식하는 기술에 해당될 수 있다.Speaker recognition may be distinguished from speech recognition. Speech recognition may correspond to a technology for recognizing what the user said, such as 'what was said'. On the other hand, speaker recognition may correspond to a technique for recognizing a speaker, such as 'who said it'.

화자 인식은 문장 종속적인 방식과 문장 독립적인 방식으로 구분될 수 있다. 문장 종속 방식은 말의 내용이 동일한 상태에서 화자를 인식하는 방식이며, 문장 독리적인 방식은 말의 내용과 무관하게 화자를 인식하는 방식이다.Speaker recognition can be divided into a sentence-dependent method and a sentence-independent method. The sentence-dependent method is a method of recognizing the speaker while the content of speech is the same, and the sentence-independent method is a method of recognizing the speaker regardless of the content of the speech.

화자 인식에는 화자 식별과 화자 확인이 포함될 수 있다.Speaker recognition may include speaker identification and speaker identification.

화자 식별은 복수의 화자가 등록된 상태에서, 특정 사용자의 발성을 가지고 복수의 화자 중 특정 사용자에 가장 유사한 1명을 찾는 기술일 수 있다.The speaker identification may be a technique for finding the one most similar to the specific user among the plurality of speakers with the specific user's utterance in a state in which a plurality of speakers are registered.

화자 확인은 특정 사용자의 발성이 기지정된 화자가 맞다면 승인을 수행하는 기술일 수 있다.Speaker confirmation may be a technique for performing authorization if a specific user's utterance is a predetermined speaker.

정리하면, 화자 식별은 사용자가 복수의 기 등록자 중 누구인지 찾아내는 것이고, 화자 확인은 사용자가 기지정된 특정인이 맞는지 여부를 확인하는 것일 수 있다.In summary, speaker identification is to find out who the user is from among a plurality of pre-registered users, and speaker identification is to confirm whether the user is a predetermined specific person.

식별부(151)는 화자 식별을 수행하고, 확인부(153)는 화자 확인을 수행할 수 있다. 화자 인식의 객체는 획득 유니트(110)를 통해 입수된 제1 발성과 제2 발성일 수 있다. 그런데, 본 발명에서는 화자 인식의 객체로서 제1 발성과 제2 발성 중 하나 대신 제3 발성을 이용할 수 있다.The identification unit 151 may perform speaker identification, and the identification unit 153 may perform speaker identification. The objects of speaker recognition may be the first and second voices obtained through the acquisition unit 110 . However, in the present invention, as an object of speaker recognition, the third utterance may be used instead of one of the first utterance and the second utterance.

일 예로, 식별부(151)는 제1 발성과 제3 발성의 비교 결과를 이용해서 제1 발성이 등록된 복수의 사용자 중에서 제2 발성에 가장 유사한 사용자를 검색할 수 있다.For example, the identification unit 151 may search for a user most similar to the second utterance among a plurality of users registered with the first utterance by using the comparison result of the first utterance and the third utterance.

일 예로, 확인부(153)는 제1 발성과 제3 발성의 비교 결과를 이용해서 제2 발성의 사용자가 기등록된 제1 발성의 사용자와 일치하는지 여부를 판단할 수 있다.For example, the check unit 153 may determine whether the user of the second utterance matches the pre-registered user of the first utterance by using the comparison result of the first utterance and the third utterance.

화자 식별과 화자 확인을 포함하는 화자 인식은 다양한 요인에 의해 정확도가 저하될 수 있다. 화자 인식의 객체가 되는 제1 발성과 제2 발성 간의 불일치가 클수록 정확도가 하락될 수 있다.Speaker recognition, including speaker identification and speaker identification, may have reduced accuracy due to various factors. As the discrepancy between the first utterance and the second utterance, which is an object of speaker recognition, increases, accuracy may decrease.

각 발성간의 정확도 하락을 유발하는 요인은 일일이 고려하기 어려울 정도로 많다. 일부 요인으로서, 발화 내용의 불일치, 발화 방법의 불일치, 화자의 상태 불일치, 녹음 환경의 불일치가 고려될 수 있다.There are so many factors that it is difficult to consider each one of the factors that cause the decrease in accuracy between each utterance. As some factors, inconsistency in utterance content, inconsistency in utterance method, inconsistency in speaker's state, and inconsistency in recording environment may be considered.

발화 내용의 불일치는 제1 발성의 내용과 제2 발성의 내용이 서로 다른 경우일 수 있다. 다시 말해, 제1 발성과 제2 발성이 서로 다른 말을 하고 있는 문장 독립 상태의 경우 불일치가 발생될 수 있다.The discrepancy between the content of the utterance may be a case in which the content of the first utterance is different from the content of the second utterance. In other words, in the case of a sentence-independent state in which the first utterance and the second utterance are speaking different words, inconsistency may occur.

발화 방법의 불일치는 성량, 억양, 발화 스타일(대화체, 낭독체 등) 등에서 제1 발성과 제2 발성 간에 차이가 있는 것을 나타낼 수 있다.The discrepancy in the utterance method may indicate that there is a difference between the first utterance and the second utterance in the volume, intonation, utterance style (dialog, reading, etc.).

화자의 상태 불일치는 노화(시차), 질병(감기 등), 감정 변화(침착, 격앙 등) 등에서 제1 발성과 제2 발성 간에 차이가 있는 것일 수 있다.The speaker's state mismatch may be a difference between the first utterance and the second utterance, such as aging (jet lag), illness (cold, etc.), emotional change (calm, exasperation, etc.).

녹음 환경의 불일치는 주변 잡음, 공간 구조에 의한 반향, 녹음 기기 등에서 제1 발성과 제2 발성 간에 존재하는 차이를 나타낼 수 있다.The discrepancy in the recording environment may indicate a difference between the first utterance and the second utterance, such as ambient noise, reflections caused by a spatial structure, and a recording device.

화자 인식 정확도의 저하를 방지하기 위해, 충분히 길게 말하기와 불일치 조건 줄이기가 수행되는 것이 바람직하다.In order to prevent deterioration of speaker recognition accuracy, it is preferable that speaking long enough and reducing inconsistency conditions are performed.

충분히 길게 말하기는 한 발성의 길이가 1~2분 이상일 것, 가급적 다양한 음소를 넣어 말하기 등을 포함할 수 있다.To speak long enough, the length of one vocalization must be 1 to 2 minutes or more, and it may include speaking with as many phonemes as possible.

불일치 조건 줄이기는 똑같은 발화 내용으로만 화자 인식을 수행하거나, 조용한 녹음실, 사무실 등의 고정된 환경에서만 녹음을 수행하는 것을 포함할 수 있다.Reducing the discrepancy condition may include performing speaker recognition only with the same utterance content or recording only in a fixed environment such as a quiet recording studio or office.

그러나, 충분히 길게 말하기, 불일치 조건 줄이기의 조건을 현실적으로 만족시키기 어려우므로, 화자 인식 기술의 응용 범위가 심각하게 제한되는 문제가 있다. 예를 들어, 범죄자의 통화 내용을 가지고 화자를 인식하고자 하는 경우, 범죄자에게 1~2분 이상 다양한 음소를 넣어 말해달라는 요구, 녹음실에서 녹음해달는 요구는 현실적으로 어렵다.However, since it is difficult to realistically satisfy the conditions of speaking long enough and reducing the discrepancy condition, there is a problem in that the application range of the speaker recognition technology is severely limited. For example, if you want to recognize the speaker using the criminal's phone conversation, it is difficult to ask the criminal to speak with various phonemes for more than 1 to 2 minutes, or to record it in a recording studio.

화자 인식 기술의 정확도를 현실적으로 개선하기 위해 합성 유니트(130)가 이용될 수 잇다.The synthesis unit 130 may be used to realistically improve the accuracy of the speaker recognition technique.

합성 유니트(130)는 환경 불일치를 제거한 새로운 음성 신호에 해당하는 제3 발성을 생성할 수 있다. 제3 발성은 제2 발성을 대체하는 것으로, 제1 발성과 유사한 환경 및 제2 발성과 유사한 화자를 지닐 수 있다.The synthesis unit 130 may generate the third utterance corresponding to the new voice signal from which the environment inconsistency has been removed. The third utterance replaces the second utterance, and may have an environment similar to the first utterance and a speaker similar to the second utterance.

도 2는 본 발명의 합성 유니트(130)의 동작을 나타낸 개략도이다.2 is a schematic diagram showing the operation of the synthesis unit 130 of the present invention.

제1 발성 ①에는 제1 화자 p1, 제1 환경 c1이 포함될 수 있다.The first utterance ① may include the first speaker p1 and the first environment c1.

제2 발성 ②에는 제2 화자 p2, 제2 환경 p2가 포함될 수 있다.The second utterance ② may include a second speaker p2 and a second environment p2.

합성 유니트(130)에는 추출부(131) 및 합성부(133)가 마련될 수 있다.An extraction unit 131 and a synthesis unit 133 may be provided in the synthesis unit 130 .

추출부(131)는 제1 발성 ①로부터 제1 환경 c1을 추출할 수 있다. 또한, 추출부(131)는 제2 발성 ②로부터 제2 화자 p2를 추출할 수 있다.The extraction unit 131 may extract the first environment c1 from the first utterance ①. Also, the extraction unit 131 may extract the second speaker p2 from the second utterance ②.

합성부(133)는 추출부(131)에 의해 추출된 제1 환경 c1과 제2 화자 p2가 합성된 제3 발성 ③을 생성할 수 있다.The synthesis unit 133 may generate a third utterance ③ in which the first environment c1 and the second speaker p2 extracted by the extraction unit 131 are synthesized.

제1 발성 ①과 제3 발성 ③을 살펴보면, 화자면에서 각자 제1 화자 p1, 제2 화자 p2를 취하고 있어 차이를 보이지만 환경면에서 모두 제1 환경 c1으로 동일하다.Looking at the 1st utterance ① and the 3rd utterance ③, the first speaker p1 and the second speaker p2 are respectively taken from the speaker plane, so there is a difference, but in terms of the environment, both are the same as the first environment c1.

서로 다른 환경을 갖는 제1 발성 ①과 제2 발성 ②를 비교하는 인식 유니트(150)의 화자 인식 정확도는 환경 불일치로 인해 낮을 수 있다. 본 발명의 인식 유니트(150)는 제1 발성 ①에 대한 비교 대상으로, 제2 발성 ② 대신 제1 발성과 동일한 환경을 갖는 제3 발성 ③을 사용할 수 있다.The speaker recognition accuracy of the recognition unit 150 that compares the first utterance ① and the second utterance ② having different environments may be low due to environment inconsistency. The recognition unit 150 of the present invention may use a third utterance ③ having the same environment as that of the first utterance instead of the second utterance ② as a comparison target for the first utterance ①.

제1 발성 ①과 제3 발성 ③ 간의 비교는 서로 간의 동일한 환경으로 인해 제1 화자 p1, 제2 화자 p2에 대해서만 집중적으로 수행되면 충분하다. 따라서, 인식 유니트(150)의 화자 인식 정확도가 개선될 뿐만 아니라, 인식 유니트(150)의 화자 인식 처리 부하가 경감될 수 있다.It is sufficient if the comparison between the first utterance ① and the third utterance ③ is intensively performed only on the first speaker p1 and the second speaker p2 due to the same environment. Accordingly, not only the speaker recognition accuracy of the recognition unit 150 is improved, but also the speaker recognition processing load of the recognition unit 150 can be reduced.

한편, 제2 화자와 제1 환경이 합성된 제3 발성은 실제 환경에서 녹음된 것이 아니라, 제1 발성과 제2 발성을 이용해서 가상으로 형성된 것일 수 있다. 따라서, 제3 발성은 현실 환경과 전혀 다른 상태를 가질 수 있다. 이러한 상태를 도 3을 통해 살펴본다.Meanwhile, the third utterance in which the second speaker and the first environment are synthesized may not be recorded in the real environment, but may be formed virtually using the first utterance and the second utterance. Accordingly, the third utterance may have a state completely different from the real environment. This state will be examined with reference to FIG. 3 .

도 3은 페이스북의 real-eye-opener를 나타낸 사진이다.3 is a picture showing Facebook's real-eye-opener.

'real-eye-opener'는 눈을 감은 사진에 가짜 눈을 생성하여 눈을 뜨고 있는 사진으로 만들어주는 기술이다.'real-eye-opener' is a technology that creates fake eyes in a picture with eyes closed and makes a picture with eyes open.

도 3의 A는 사용자가 사전에 등록해둔 것으로 눈을 뜨고 있는 상태의 실제 사진이다. 도 3의 B는 실수로 눈을 감은 사진으로 역시 실제 사진이다.FIG. 3A is an actual photo of a state in which the user has his/her eyes open, which has been previously registered by the user. 3B is a photograph with eyes closed by mistake, and is also an actual photograph.

제1 눈(뜬 눈) e1과 제1 코(눈을 제외한 나머지 부분) n1을 갖는 사진 A에서 제1 눈 e1이 추출될 수 있다.The first eye e1 may be extracted from the photo A having the first eye (open eye) e1 and the first nose (remaining part except the eye) n1 .

제2 눈(감은 눈) e2와 제2 코(눈을 제외한 나머지 부분) n2를 갖는 사진 B에서 제2 코 n2가 추출될 수 있다.The second nose n2 may be extracted from the photo B having the second eye (closed eye) e2 and the second nose (remaining part except the eye) n2.

사진 C는 사진 A로부터 추출된 제1 눈 e1과 사진 B로부터 추출된 제2 코 n2를 합성한 가상의 사진이다. 사진 C는 제1 눈 e1과 제2 코 n2 간의 색깔 등의 차이로 인해, 허술하게 합성된 조작 사진임을 쉽게 짐작케 한다. 사진 C는 소위 허술하게 조작된 '뽀샵' 사진에 해당될 수 있다. 허술하게 합성된 사진 C를 실제의 사진 A와 대조해서 사진 A의 주인공과 사진 C의 주인공이 동일인물인지 판별하는 상황은 모순될 수 있다. 마찬가지로 사진 C를 실제의 사진 B와 대조하는 경우도 마찬가지이다.Photograph C is a virtual photograph obtained by synthesizing the first eye e1 extracted from photograph A and the second nose n2 extracted from photograph B. Due to the difference in color between the first eye e1 and the second nose n2, it is easy to guess that the photo C is a poorly synthesized manipulation photo. Photo C may correspond to a so-called poorly manipulated 'Photoshop' photo. The situation in which the poorly synthesized photo C is compared with the actual photo A to determine whether the main character of photo A and the main character of photo C are the same person can be contradictory. Similarly, the same is true for contrasting photo C with actual photo B.

본 발명의 합성 유니트(130)의 경우에도 추출부(131) 및 합성부(133)에서 단순 추출 및 합성이 이루어진다면, 실제의 제1 발성 또는 제2 발성과 충분하게 비교할 수준을 갖는 제3 발성의 생성이 어려울 수 있다.Even in the case of the synthesis unit 130 of the present invention, if simple extraction and synthesis are performed in the extraction unit 131 and the synthesis unit 133, the third utterance having a level sufficiently comparable to the actual first or second utterance. can be difficult to create.

실제의 발성과 구분하기 어려울 정도의 제3 발성을 생성하기 위해 음성 합성 장치에는 GAN 모듈 또는 cGAN 모듈이 마련될 수 있다. GAN 모듈 또는 cGAN 모듈은 생성부(135)와 판별부(137)를 포함하고, 합성 유니트(130)에 마련될 수 있다. GAN(Generative Adversarial Network) 모듈 또는 cGAN(conditional Generative Adversarial Network) 모듈은 제1 발성과 제2 발성을 기초로 제3 발성을 생성할 수 있다.A GAN module or a cGAN module may be provided in the voice synthesizer to generate a third utterance that is difficult to distinguish from an actual utterance. The GAN module or cGAN module includes a generation unit 135 and a determination unit 137 , and may be provided in the synthesis unit 130 . A Generative Adversarial Network (GAN) module or a conditional Generative Adversarial Network (cGAN) module may generate a third utterance based on the first utterance and the second utterance.

'real-eye-opener'는 GAN(Generative Adversarial Network)을 적용하여 실제와 구분하기 어려운 수준의 합성 사진(가상 사진) C'를 생성할 수 있다. 사진 C'에는 사진 A로부터 추출된 제1 눈 e1 대신 가공 눈 e1'가 포함될 수 있다. 가공 눈 e1'는 제1 눈 e1을 가공한 것일 수 있다.The 'real-eye-opener' applies a Generative Adversarial Network (GAN) to create a synthetic photo (virtual photo) C' that is difficult to distinguish from the real one. The photo C' may include the processed eye e1' instead of the first eye e1 extracted from the photo A. The processed eye e1' may be processed by the first eye e1.

본 발명의 합성 유니트(130)는 사진 또는 이미지 대신 발성을 객체로 하는 점에서 도 3의 'real-eye-opener'와 구별되는 특징을 갖는다. 또한, 입력 인자 등에서 전혀 다르다.The synthesizing unit 130 of the present invention has a distinguishing feature from the 'real-eye-opener' of FIG. 3 in that it uses vocalization as an object instead of a photograph or image. Also, it is completely different in input parameters and the like.

cGAN 모듈은 제1 발성이 기등록된 상태에서 제1 발성과 비교 대상이 되는 제2 발성이 입력되면, 제2 발성을 대체할 수 있는 제3 발성을 생성할 수 있다.The cGAN module may generate a third utterance that can replace the second utterance when a second utterance that is to be compared with the first utterance is input in a state in which the first utterance is previously registered.

latent vector, z-vector 등의 랜덤 노이즈를 입력으로 하는 cGAN 모듈에 따르면, 합성 유니트(130)는 제1 발성 또는 제2 발성이 일부 조작된 것과 유사한 제3 발성을 형성할 수 있다.According to the cGAN module to which random noise such as a latent vector or z-vector is input, the synthesis unit 130 may form a third utterance similar to that in which the first utterance or the second utterance is partially manipulated.

합성부(133) 대신 생성부(135)가 마련된 음성 합성 장치는 다음과 같이 설명될 수 있다.The speech synthesis apparatus in which the generator 135 is provided instead of the synthesizer 133 may be described as follows.

획득 유니트(110)는 기녹음된 음성 데이터에 해당하는 제1 발성 ①과 새롭게 입수된 음성 데이터에 해당하는 제2 발성 ②를 획득할 수 있다.The acquisition unit 110 may acquire the first utterance ① corresponding to the pre-recorded voice data and the second utterance ② corresponding to the newly acquired voice data.

인식 유니트(150)는 제1 발성 ①의 목소리와 제2 발성 ②의 목소리 간의 일치 여부를 판단할 수 있다.The recognition unit 150 may determine whether the voice of the first utterance ① and the voice of the second utterance ② match.

합성 유니트(130)는 인식 유니트(150)의 판단 정확도를 개선하기 위해 인식 유니트(150)로 입력되는 제1 발성 ① 또는 제2 발성 ②를 조작할 수 있다.The synthesis unit 130 may manipulate the first utterance ① or the second utterance ② input to the recognition unit 150 in order to improve the determination accuracy of the recognition unit 150 .

합성 유니트(130)는 제1 발성 ①에 포함된 주변 잡음을 제2 발성에 포함된 주변 잡음으로 대체할 수 있다. 또는, 합성 유니트(130)는 제2 발성 ②에 포함된 주변 잡음을 제1 발성 ①에 포함된 주변 잡음으로 대체할 수 있다.The synthesis unit 130 may replace the ambient noise included in the first utterance ① with the ambient noise included in the second utterance. Alternatively, the synthesis unit 130 may replace the ambient noise included in the second utterance ② with the ambient noise included in the first utterance ①.

합성 유니트(130)는 제2 발성 ②의 목소리에 제1 발성 ①의 주변 잡음이 합성된 제3 발성 ③을 생성하거나, 제1 발성 ①의 목소리에 제2 발성 ②의 주변 잡음이 합성된 제3 발성 ③을 생성할 수 있다.The synthesis unit 130 generates a third utterance ③ in which the voice of the second utterance ② is synthesized with the ambient noise of the first utterance ①, or a third voice in which the ambient noise of the second utterance ② is synthesized with the voice of the first utterance ① You can create vocalization ③.

인식 유니트(150)는 제1 발성 ①과 제3 발성 ③을 비교하거나, 제2 발성 ②와 제3 발성 ③을 비교해서 제1 발성 ①의 목소리와 제2 발성 ②의 목소리 간의 일치 여부를 판단할 수 있다.The recognition unit 150 compares the first utterance ① and the third utterance ③ or compares the second utterance ② and the third utterance ③ to determine whether the voice of the first utterance ① and the voice of the second utterance ② match. can

이하, GAN 모듈 또는 cGAN 모듈이 적용된 합성 유니트(130)에 대해 상세하게 설명한다.Hereinafter, the synthesis unit 130 to which the GAN module or cGAN module is applied will be described in detail.

도 9는 일 실시예의 합성 유니트(130)를 나타낸 개략도이다.9 is a schematic diagram illustrating a synthesis unit 130 in one embodiment.

도 9에 도시된 합성 유니트(130)는 생성부(135), 판별부(137)를 포함할 수 있다.The synthesis unit 130 shown in FIG. 9 may include a generating unit 135 and a determining unit 137 .

생성부(135)는 실제의 제1 발성 ①, 실제의 제2 발성 ② 및 랜덤 노이즈(latent vector, z-vector)를 기초로 제3 발성 ③을 생성할 수 있다. 생성부(135)는 제2 발성 ②의 제2 화자에 제1 발성 ①의 제1 환경이 함께 포함되는 방향으로 제3 발성 ③을 생성할 수 있다. 랜덤 노이즈에 제3 발성의 생성에 관련된 컨디션(condition)이 부가되면, 제3 발성의 생성이 가이드될 수 있다. 이때, 생성부에 입력되는 제1 발성 또는 제2 발성이 cGAN에서 제공되는 컨디션(condition)에 해당할 수 있다.The generator 135 may generate the third utterance ③ based on the actual first utterance ①, the actual second utterance ②, and random noise (latent vector, z-vector). The generator 135 may generate the third utterance ③ in a direction in which the second speaker of the second utterance ② includes the first environment of the first utterance ①. If a condition related to the generation of the third utterance is added to the random noise, the generation of the third utterance may be guided. In this case, the first utterance or the second utterance input to the generator may correspond to a condition provided by the cGAN.

판별부(137)는 제2 발성 ②에 대한 제3 발성 ③의 진위를 판별할 수 있다.The determining unit 137 may determine the authenticity of the third utterance ③ with respect to the second utterance ②.

인식 유니트(150)는 제1 발성과 제3 발성을 비교하고, 제1 발성과 제3 발성의 비교 결과를 제1 발성과 제2 발성 간의 비교 결과로 처리할 수 있다.The recognition unit 150 may compare the first utterance and the third utterance, and process the comparison result of the first utterance and the third utterance as a comparison result between the first utterance and the second utterance.

실제와 구분하기 어려운 가상의 제3 발성을 생성하기 위해 복수의 실제 발성이 사전에 획득될 수 있다.A plurality of real vocalizations may be acquired in advance in order to generate a virtual third vocalization that is difficult to distinguish from the real one.

사무실, 녹음실과 같이 설정값 이하의 잡음 데시벨을 만족하는 환경에서 고성능 마이크로폰을 사용하여 녹음이 진행될 수 있다.In an environment that satisfies noise decibels below the set value, such as an office or recording studio, recording can be performed using a high-performance microphone.

복수 사용자의 발성이 모집되는 것이 좋다. 각 발성의 발성 문장(말한 내용), 발성 회차(같은 내용을 반복해서 녹음), 발성 시차(설정 시간의 경과 후에 다시 녹음, 예를 들어 다음날, 다음주, 다음달에 다시 녹음) 등은 다를 수 있다. 제1 획득부는 복수의 발성을 원본 데이터베이스(원본 DB)에 저장할 수 있다.It is preferable that the voices of multiple users are recruited. The utterance sentence (what is said) of each utterance, the number of utterances (recording the same content repeatedly), and the utterance lag (re-recorded after a set time has elapsed, for example, re-recorded the next day, next week, next month) may be different. The first acquisition unit may store the plurality of vocalizations in an original database (original DB).

원본 데이터베이스(원본 DB)에는 도 4와 같이 화자 A의 발성 1, 화자 B의 발성 2, 화자 B의 발성 1, 화자 B의 발성 2,...등과 같이 복수 화자의 복수 발성이 저장될 수 있다.In the original database (original DB), as shown in FIG. 4 , multiple utterances of a plurality of speakers may be stored, such as utterance 1 of speaker A, utterance 2 of speaker B, utterance 1 of speaker B, utterance 2 of speaker B, etc. .

제1 발성을 획득하는 획득 유니트(110)는 제1 발성에 도 5와 같이 복수의 환경을 부가할 수 있다.The acquisition unit 110 for acquiring the first utterance may add a plurality of environments to the first utterance as shown in FIG. 5 .

도 5는 가공 발성의 생성 과정을 나타낸 개략도이다.5 is a schematic diagram showing a process of generating a work voice.

제1 발성을 획득하는 획득 유니트(110)는 제1 발성에 복수의 환경을 부가할 수 있다.The acquisition unit 110 that acquires the first utterance may add a plurality of environments to the first utterance.

획득 유니트(110)에 의해 서로 다른 환경이 부가된 제1 발성을 가공 발성으로 정의할 때, 획득 유니트(110)에 의해 복수의 가공 발성이 마련될 수 있다.When the first vocalization to which different environments are added by the acquisition unit 110 is defined as the processing voice, a plurality of processing vocalizations may be provided by the acquisition unit 110 .

이때, 판별부(137)는 제3 발성을 거짓으로 판별하도록 학습될 수 있다. 생성부(135)는 판별부(137)에 의해 제3 발성이 참으로 판별되도록, 가공 발성을 이용하여 제3 발성을 생성할 수 있다. 판별부(137)의 학습과 생성부(135)의 학습이 경쟁적으로 진행되면 될수록 제3 발성은 현실의 실제 발성과 구분하기 어려운 수준까지 진화될 수 있다.In this case, the determining unit 137 may be trained to determine the third utterance as false. The generating unit 135 may generate the third vocalization using the processed vocalization so that the third vocalization is determined as true by the determining unit 137 . As the learning of the determining unit 137 and the learning of the generating unit 135 become more competitive, the third utterance may evolve to a level that is difficult to distinguish from the actual utterance.

획득 유니트(110)는 가공 발성을 형성하기 위해 제1 발성을 후처리할 수 있다. 획득 유니트(110)는 후처리된 제1 발성, 다시 말해 가공 발성을 생성부(135)에 제공할 수 있다.The acquisition unit 110 may post-process the first vocalization to form a processing vocalization. The acquisition unit 110 may provide the post-processed first voice, that is, the processed voice, to the generator 135 .

이때, 후처리는 제1 처리, 제2 처리 및 제3 처리 중 적어도 하나를 포함할 수 있다. 각 후처리는 원본에 해당하는 제1 발성을 대상으로 수행되거나, 이미 후처리가 이루어진 제1 발성을 대상으로 수행될 수 있다.In this case, the post-processing may include at least one of a first process, a second process, and a third process. Each post-processing may be performed on a first voicing corresponding to the original or may be performed on a first voicing that has already been post-processed.

획득 유니트(110)에서 획득한 제1 발성은 원본 발성에 해당될 수 있다. 예를 들어, 원본 발성은 16000Hz의 샘플링 주파수를 가지며, wav 포맷으로 녹음된 상태일 수 있다. 이때의 환경 정보는 16000Hz, wav, '잡음 없음'일 수 있다.The first utterance acquired by the acquisition unit 110 may correspond to the original utterance. For example, the original speech may have a sampling frequency of 16000 Hz and be recorded in a wav format. At this time, the environmental information may be 16000 Hz, wav, and 'no noise'.

제1 처리는 제1 발성을 다운 샘플링(down sampling) 후 업 샘플링(up sampling)하는 것일 수 있다.The first process may be up-sampling after down-sampling the first utterance.

일 예로, 획득 유니트(110)는 16000Hz의 원본 음성을 8000Hz로 다운 샘플링 후 다시 16000Hz로 업 샘플링할 수 있다. 샘플링 주파수가 줄어들 때 일부 정보가 손실될 수 있다. 일단 다운 샘플링되면 원래대로 다시 업 샘플링하더라도 8000Hz의 환경 특성이 유지될 수 있다. 제1 처리가 완료된 후의 제1 발성은 8000Hz의 샘플링 주파수, wav 포맷, '잡음 없음'의 환경 정보를 가질 수 있다.For example, the acquisition unit 110 may down-sample the original voice of 16000 Hz to 8000 Hz and then up-sample the original voice to 16000 Hz. Some information may be lost when the sampling frequency is reduced. Once down-sampled, the environmental characteristics of 8000 Hz can be maintained even with up-sampling back to original. The first utterance after the first processing is completed may have a sampling frequency of 8000 Hz, a wav format, and environmental information of 'no noise'.

제2 처리는 제1 발성에 지하철 잡음, 카페 잡음, 공원 잡음, 차소리 잡음, 사이렌 소리 잡음 등의 배경 잡음을 추가하는 것일 수 있다. The second processing may be to add background noise such as subway noise, cafe noise, park noise, car noise, siren noise, etc. to the first utterance.

일 예로, 획득 유니트(110)는 제1 발성에 지하철 잡음을 SNR(신호대잡음비) 20dB로 추가할 수 있다. 제2 처리는 원본 발성 상태의 제1 발성에 대해 수행되거나 제1 처리가 이루어진 제1 발성에 대해 수행될 수 있다. 도 5에서는 제1 처리가 이루어진 제1 발성에 대해 제2 후처리가 수행된 상태가 개시된다. 제2 처리가 완료된 후의 제1 발성은 8000Hz 샘플링 주파수, wav 포맷, '지하철 잡음 20dB'의 환경 정보를 가질 수 있다. 이때의 환경 정보는 텍스트 상태가 아니라, 실제로 제1 발성의 소리를 변화시키는 노이즈를 형성하는 것임을 환기한다.As an example, the acquisition unit 110 may add subway noise to the first utterance at an SNR (signal-to-noise ratio) of 20 dB. The second processing may be performed on the first utterance in the original utterance state, or may be performed on the first utterance that has been subjected to the first processing. 5 shows a state in which the second post-processing is performed on the first vocalization that has been subjected to the first processing. The first utterance after the second processing is completed may have environmental information of 8000 Hz sampling frequency, wav format, and 'subway noise 20 dB'. It is reminded that the environmental information at this time is not a text state, but actually forms noise that changes the sound of the first utterance.

제3 처리는 제1 발성에 손실 압축 코덱을 적용하는 것일 수 있다.The third process may be to apply a lossy compression codec to the first utterance.

일 예로, 획득 유니트(110)는 원본 wav 포맷의 파일을 mp3 포맷으로 변환 저장하였다가 wav 포맷으로 다시 변환할 수 있다. 손실 압축 코덱의 경우 본래의 wav 대비 특성이 달라질 수 있다. 일단 손실 압축 코덱이 적용되면 추후 원본 포맷으로 변환하더라도 기존 mp3의 환경 특성이 유지될 수 있다. 제3 처리가 완료된 후의 제1 발성은 8000Hz 샘플링 주파수, mp3 포맷, '지하철 잡음 20dB'의 환경 정보를 가질 수 있다.For example, the acquisition unit 110 may convert the original wav format file into an mp3 format, store it, and then convert it back to the wav format. In the case of a lossy compression codec, characteristics compared to original wav may be different. Once the lossy compression codec is applied, even if it is converted to the original format later, the environmental characteristics of the existing mp3 can be maintained. The first utterance after the third processing is completed may have environmental information of 8000 Hz sampling frequency, mp3 format, and 'subway noise 20 dB'.

생성부(135) 또는 판별부(137)의 학습 과정에서 환경 정보가 같으면 동일한 환경의 발성이라고 가정될 수 있다.If the environment information is the same in the learning process of the generating unit 135 or the determining unit 137, it may be assumed that the same environment is uttered.

도 6은 판별부(137)를 나타낸 개략도이고, 도 7은 판별부(137)의 동작을 나타낸 개략도이다.6 is a schematic diagram illustrating the determination unit 137 , and FIG. 7 is a schematic diagram illustrating the operation of the determination unit 137 .

본 실시예의 판별부(137)(Discriminator)는 첫번째 발성과 두번째 발성 간의 비교를 통해 학습할 수 있다.The discriminator 137 of the present embodiment may learn by comparing the first and second voices.

판별부(137)(Discriminator)는 첫번째 발성과 두번째 발성이 서로 일치하면 참으로 판단('1' 출력)하고, 서로 다르면 거짓으로 판단('0'으로 출력)할 수 있다.The discriminator 137 (Discriminator) may determine to be true (output '1') if the first utterance and the second utterance match each other, and may determine to be false (output as '0') if they are different from each other.

첫번째 발성은 제1 발성 ① 또는 제2 발성 ②이며, 실제 사용자의 발성에 해당하는 진짜 데이터 REAL일 수 있다.The first utterance is the first utterance ① or the second utterance ②, and may be real data REAL corresponding to the actual user's utterance.

두번째 발성은 제1 발성 ①, 제2 발성 ②, 제3 발성 ③ 중 하나일 수 있다. 제1 발성 또는 제2 발성인 두번째 발성은 실제 사용자의 발성에 해당하는 진짜 데이터 REAL일 수 있다. 반면, 제3 발성에 해당하는 두번째 발성은 가짜 데이터 FAKE일 수 있다. 왜냐하면, 제3 발성은 실제 사용자의 발성이 아니라 생성부(135)에 의해 생성된 데이터이기 때문이다.The second utterance may be one of the first utterance ①, the second utterance ②, and the third utterance ③. The first utterance or the second utterance that is the second utterance may be real data REAL corresponding to the actual user's utterance. On the other hand, the second utterance corresponding to the third utterance may be fake data FAKE. This is because the third utterance is data generated by the generator 135, not an actual user's utterance.

판별부(137)는 도 6에서처럼 제3 발성을 거짓으로 판별하도록 학습될 수 있다. 본 실시예의 판별부(137)는 비교 대상 발성이 진짜인지 가짜인지만 요구하는 것에서 더 나아가 추가 조건을 더 만족해야지만 참으로 판단하도록 학습될 수 있다. 반대로 얘기하면, 판별부(137)는 제1 조건, 제2 조건 및 제3 조건이 모두 만족되는 경우에 한해 제3 발성을 참으로 판별하도록 학습하는 것으로 볼 수 있다. 현실적으로, 제1 조건, 제2 조건, 제3 조건을 모두 만족하는 제3 발성은 진짜 데이터로 취급되어도 무방할 정도로 진짜 데이터와 구분하기 어려운 수준에 도달한 상태로 간주될 수 있다.The determining unit 137 may be trained to determine the third utterance as false as in FIG. 6 . The determining unit 137 of the present embodiment may be learned to judge true only when an additional condition is further satisfied, in addition to requesting only whether the comparison target utterance is real or fake. Conversely, it can be seen that the determining unit 137 learns to determine the third utterance as true only when the first condition, the second condition, and the third condition are all satisfied. In reality, the third utterance that satisfies all of the first, second, and third conditions may be regarded as reaching a level that is difficult to distinguish from real data to such an extent that it may be treated as real data.

제1 조건은 제3 발성이 생성부(135)에 의해 생성된 가짜 데이터가 아니라 진짜 데이터로 판별되는 것일 수 있다.The first condition may be that the third utterance is determined to be real data, not fake data generated by the generator 135 .

제2 조건은 제3 발성의 화자가 제2 발성의 제2 화자와 동일한 것일 수 있다.The second condition may be that the speaker of the third utterance is the same as the second speaker of the second utterance.

제3 조건은 제3 발성의 환경이 제2 발성의 제2 환경과 동일한 것일 수 있다.The third condition may be that the environment of the third utterance is the same as the second environment of the second utterance.

도 7의 (a)와 같이 첫번째 발성과 두번째 발성이 모두 진짜 데이터 REAL이고, 양자의 화자가 A로 동일하고, 양자의 환경이 1로 동일하면 판별부(137)는 참으로 판별하고 '1'을 출력할 수 있다.As shown in (a) of FIG. 7 , if both the first and second utterances are real data REAL, both speakers are the same as A, and both environments are the same as 1, the determining unit 137 determines to be true and '1' can be printed out.

도 7의 (b)와 같이 두번째 발성이 거짓인 경우, 도 7의 (c)와 같이 화자가 서로 다른 경우, 도 7의 (d)와 같이 환경이 서로 다른 경우 판별부(137)는 거짓으로 판별하고 '0'을 출력할 수 있다.If the second utterance is false as shown in FIG. 7(b), if the speakers are different as shown in FIG. 7(c), or if the environment is different as shown in FIG. 7(d), the determination unit 137 is false as shown in FIG. 7(d). It can be determined and output '0'.

제3 발성은 제2 발성의 제2 화자와 제1 발성의 제1 환경을 갖는 것을 목표로 할 수 있다. 따라서, 생성부(135)는 제2 화자와 제1 환경을 갖는 방향으로 제3 발성을 생성할 수 있다. 본 실시예에 따르면, 화자의 동일성과 관련하여 제3 발성은 제2 조건을 만족하기 용이할 수 있다. 반면, 환경의 동일성과 관련하여 제3 발성은 제3 조건을 만족하기 어려울 수 있다.The third utterance may be aimed at having a second speaker of the second utterance and a first environment of the first utterance. Accordingly, the generator 135 may generate the third utterance in a direction having the second speaker and the first environment. According to the present embodiment, the third utterance may easily satisfy the second condition in relation to the identity of the speaker. On the other hand, it may be difficult to satisfy the third condition for the third vocalization in relation to the identity of the environment.

제3 조건을 용이하게 만족하도록 획득 유니트(110)의 후처리 공정이 이용될 수 있다.A post-processing process of the acquisition unit 110 may be used to easily satisfy the third condition.

도 10은 본 발명의 음성 합성 방법을 나타낸 흐름도이다.10 is a flowchart illustrating a speech synthesis method of the present invention.

먼저, 실제의 제1 발성과 실제의 제2 발성이 획득될 수 있다(S 510). 획득 유니트(110)에서 이루어지는 공정일 수 있다.First, an actual first utterance and an actual second utterance may be obtained ( S510 ). It may be a process performed in the acquisition unit 110 .

다음으로, 획득 유니트(110)는 제1 발성에 서로 다른 복수의 환경이 부가된 복수의 가공 발성을 생성할 수 있다(S 520).Next, the acquisition unit 110 may generate a plurality of fictitious speeches in which a plurality of different environments are added to the first speech ( S520 ).

합성 유니트(130)는 제1 발성에 갈음하여 가공 발성을 입력으로 할 수 있다. 합성 유니트(130)는 가공 발성의 환경과 제2 발성의 화자가 포함된 제3 발성을 생성할 수 있다(S 530). 가공 발성의 환경은 제1 발성의 제1 환경이 현실 세계의 다양한 상황에 맞게 변형 가공된 것일 수 있다. 따라서, 가공 발성의 환경은 제1 발성의 제1 환경보다 종류가 다양하므로, 제2 발성의 제2 환경에 근접할 확률이 높다. 본 발명에 따르면, 제3 발성의 생성에 랜덤 노이즈가 적용되므로, 가공 발성의 환경 역시 조금씩 변화되며, 그 과정에서 제2 환경에 매칭되는 가공 발성의 환경이 생성될 수 있다. 이렇게 생성된 가공 발성의 환경은 제1 발성의 제1 환경을 대신하여 제3 발성에 포함될 수 있다. 해당 제3 발성은 제2 화자, 제1 환경을 대체한 가공 환경을 가질 수 있다. 이때, 해당 가공 환경의 추출 대상이 되는 가공 발성과 제2 발성의 비교를 통해, 제1 화자와 제2 화자 간의 비교가 동일한 환경 하에서 수행될 수 있다.The synthesis unit 130 may use the processing voice as an input in place of the first voice. The synthesizing unit 130 may generate a third utterance including the environment of the fictitious utterance and the speaker of the second utterance ( S530 ). The environment of the processed vocalization may be one in which the first environment of the first vocalization is modified and processed to fit various situations in the real world. Therefore, since the environment of the fictitious utterance is more diverse than the first environment of the first utterance, the probability of being close to the second environment of the second utterance is high. According to the present invention, since random noise is applied to the generation of the third utterance, the environment of the processed utterance is also slightly changed, and in the process, an environment of the processed utterance matching the second environment can be generated. The environment of the generated utterance may be included in the third voice instead of the first environment of the first utterance. The third utterance may have a second speaker and a processing environment substituted for the first environment. In this case, the comparison between the first speaker and the second speaker may be performed under the same environment by comparing the processed voice and the second voice, which are the extraction targets of the processing environment.

도 8은 생성부(135)를 나타낸 개략도이다.8 is a schematic diagram illustrating the generation unit 135 .

제1 발성, 제2 발성, 랜덤 노이즈가 입력되는 생성부(135)(Generator)는 판별부(137)에 의해서 참으로 판별되는 제3 발성 '생성한 발성'을 생성하도록 학습될 수 있다.The generator 135 (Generator) to which the first utterance, the second utterance, and random noise are input may be trained to generate a third utterance 'generated utterance' that is determined to be true by the determination unit 137 .

판별부(137)의 학습을 실행하고, 생성부(135)의 학습을 실행하는 실행부가 마련될 수 있다.An execution unit for executing the learning of the determining unit 137 and executing the learning of the generating unit 135 may be provided.

실행부는 생성부(135)가 판별부(137)를 속이는 속임 성공값이 설정값을 만족할 때까지 판별부(137)의 학습과 생성부(135)의 학습을 번갈아 실행할 수 있다.The execution unit may alternately execute the learning of the determining unit 137 and the learning of the generating unit 135 until the generating unit 135 deceives the determining unit 137 and the success value of the deception satisfies the set value.

속임 성공값은 생성부(135)에서 생성된 제3 발성이 판별부(137)에서 참으로 판별되는 빈도 또는 확률을 포함할 수 있다.The cheat success value may include a frequency or probability that the third utterance generated by the generator 135 is determined to be true by the determiner 137 .

실행부는 판별부(137)의 학습 중에는 생성부(135)의 학습을 중단시킬 수 있다.The execution unit may stop the learning of the generator 135 while the determination unit 137 is learning.

실행부는 생성부(135)의 학습 중에는 판별부(137)의 학습을 중단시킬 수 있다. 실행부에 의해 학습이 완료되면(속임 성공값이 설정값을 만족하면), 음성 합성 장치는 화자 인식 현장, 음성 합성 현장에 투입될 수 있다. 일 예로, 학습이 완료된 상태의 생성부(135)가 음성 합성기로서 현장에 투입될 수 있다.The execution unit may stop the learning of the determining unit 137 while the generating unit 135 is learning. When the learning is completed by the execution unit (when the deception success value satisfies the set value), the speech synthesis apparatus may be input to the speaker recognition site and the speech synthesis site. For example, the generating unit 135 in a state in which learning is completed may be put into the field as a voice synthesizer.

제1 환경 하에서 실제로 녹음된 제2 화자를 갖는 가상의 발성이 목표 발성으로 정의될 수 있다.A virtual speech having a second speaker actually recorded under the first environment may be defined as a target speech.

본 발명에 따르면, 생성부(135)와 판별부(137)는 제3 발성이 목표 발성을 추종하도록, GAN(Generative Adversarial Network) 기법에 따라 상호 적대적으로 반복 학습할 수 있다.According to the present invention, the generating unit 135 and the determining unit 137 may hostilely and repeatedly learn according to a Generative Adversarial Network (GAN) technique so that the third utterance follows the target utterance.

이때, 제1 환경 하에서 실제로 녹음된 제1 화자를 갖는 제1 발성을 제3 발성과 비교하는 인식 유니트(150)가 마련될 수 있다.In this case, the recognition unit 150 may be provided for comparing the first utterance having the first speaker actually recorded under the first environment with the third utterance.

인식 유니트(150)는 생성부(135)와 판별부(137)의 반복 학습의 결과로 도출된 제3 발성을 이용해서, 서로 동일한 제1 환경 하에서 제1 화자와 제2 화자를 비교할 수 있다.The recognition unit 150 may compare the first speaker and the second speaker under the same first environment by using the third utterance derived as a result of repeated learning of the generator 135 and the determiner 137 .

도 11은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 11의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 음성 합성 장치 등) 일 수 있다. 11 is a diagram illustrating a computing device according to an embodiment of the present invention. The computing device TN100 of FIG. 11 may be a device (eg, a speech synthesis device, etc.) described herein.

도 11의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.11 , the computing device TN100 may include at least one processor TN110 , a transceiver device TN120 , and a memory TN130 . In addition, the computing device TN100 may further include a storage device TN140 , an input interface device TN150 , an output interface device TN160 , and the like. Components included in the computing device TN100 may be connected by a bus TN170 to communicate with each other.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.The processor TN110 may execute a program command stored in at least one of the memory TN130 and the storage device TN140. The processor TN110 may mean a central processing unit (CPU), a graphics processing unit (GPU), or a dedicated processor on which methods according to an embodiment of the present invention are performed. The processor TN110 may be configured to implement procedures, functions, methods, and the like described in connection with an embodiment of the present invention. The processor TN110 may control each component of the computing device TN100 .

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다. Each of the memory TN130 and the storage device TN140 may store various information related to the operation of the processor TN110 . Each of the memory TN130 and the storage device TN140 may be configured as at least one of a volatile storage medium and a non-volatile storage medium. For example, the memory TN130 may include at least one of a read only memory (ROM) and a random access memory (RAM).

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.The transceiver TN120 may transmit or receive a wired signal or a wireless signal. The transceiver TN120 may be connected to a network to perform communication.

한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다. On the other hand, the embodiment of the present invention is not implemented only through the apparatus and/or method described so far, and a program for realizing a function corresponding to the configuration of the embodiment of the present invention or a recording medium in which the program is recorded may be implemented. And, such an implementation can be easily implemented by those skilled in the art from the description of the above-described embodiments.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiment of the present invention has been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements by those skilled in the art using the basic concept of the present invention as defined in the following claims are also presented. It belongs to the scope of the invention.

110...획득 유니트 130...합성 유니트
131...추출부 133...합성부
135...생성부 137...판별부
150...인식 유니트 151...식별부
153...확인부
110...acquisition unit 130...synthesis unit
131...extraction section 133...synthesis section
135...Generation unit 137...Discrimination unit
150...recognition unit 151...identification unit
153...confirmation

Claims (15)

목소리 데이터를 포함하는 화자가 정의되고, 주변 잡음 데이터를 포함하는 환경이 정의되며, 상기 화자와 상기 환경이 포함된 발성이 정의될 때,
제1 화자와 제1 환경을 갖는 제1 발성을 획득하고, 제2 화자와 제2 환경을 갖는 제2 발성을 획득하는 획득 유니트;
상기 제2 화자와 상기 제1 환경을 갖는 제3 발성을 생성하는 합성 유니트를 포함하고,
상기 합성 유니트에는 생성부 및 판별부가 마련되며,
상기 생성부는 실제의 상기 제1 발성, 실제의 상기 제2 발성 및 랜덤 노이즈를 기초로 상기 제3 발성을 생성하고,
상기 판별부는 상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하며,
상기 생성부는 상기 제2 발성의 상기 제2 화자에 상기 제1 발성의 상기 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 획득 유니트는 상기 제1 발성에 복수의 환경을 부가하며,
상기 획득 유니트에 의해 서로 다른 환경이 부가된 상기 제1 발성에 해당하는 복수의 가공 발성이 마련되고,
상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되며,
상기 생성부는 상기 판별부에 의해 상기 제3 발성이 참으로 판별되도록, 상기 가공 발성을 이용하여 상기 제3 발성을 생성하는 음성 합성 장치.
When a speaker including voice data is defined, an environment including ambient noise data is defined, and a speech including the speaker and the environment is defined,
an acquisition unit for acquiring a first utterance having a first speaker and a first environment, and acquiring a second utterance having a second speaker and a second environment;
a synthesis unit for generating a third utterance having the second speaker and the first environment;
The synthesis unit is provided with a generating unit and a determining unit,
the generating unit generates the third utterance based on the actual first utterance, the actual second utterance, and random noise;
The determining unit determines the authenticity of the third utterance with respect to the second utterance,
the generating unit generates the third utterance in a direction in which the first environment of the first utterance is included in the second speaker of the second utterance;
the acquisition unit adds a plurality of circumstances to the first utterance;
A plurality of processed vocalizations corresponding to the first vocalizations to which different environments are added are provided by the acquisition unit;
The determining unit is trained to determine the third utterance as false,
and the generating unit generates the third utterance using the fabricated utterance so that the third utterance is determined as true by the determining unit.
제1항에 있어서,
상기 제1 발성과 상기 제3 발성을 비교하는 식별부가 마련되고,
상기 식별부는 비교 결과를 이용해서 상기 제1 발성이 등록된 복수의 사용자 중에서 상기 제2 발성에 가장 유사한 사용자를 검색하는 음성 합성 장치.
According to claim 1,
An identification unit for comparing the first utterance and the third utterance is provided;
The identification unit searches for a user most similar to the second utterance among a plurality of users registered with the first utterance by using the comparison result.
제1항에 있어서,
상기 제1 발성과 상기 제3 발성을 비교하는 확인부가 마련되고,
상기 확인부는 비교 결과를 이용해서 상기 제2 발성의 사용자가 기등록된 상기 제1 발성의 사용자와 일치하는지 여부를 판단하는 음성 합성 장치.
According to claim 1,
A confirmation unit for comparing the first utterance and the third utterance is provided;
The confirmation unit determines whether the user of the second utterance coincides with a previously registered user of the first utterance by using the comparison result.
제1항에 있어서,
상기 합성 유니트에는 추출부 및 합성부가 마련되고,
상기 추출부는 상기 제1 발성으로부터 상기 제1 환경을 추출하고, 상기 제2 발성으로부터 상기 제2 화자를 추출하며,
상기 합성부는 상기 추출부에 의해 추출된 상기 제1 환경과 상기 제2 화자가 합성된 상기 제3 발성을 생성하는 음성 합성 장치.
According to claim 1,
The synthesis unit is provided with an extraction unit and a synthesis unit,
The extraction unit extracts the first environment from the first utterance, and extracts the second speaker from the second utterance,
and the synthesis unit generates the third utterance in which the first environment extracted by the extraction unit and the second speaker are synthesized.
제1항에 있어서,
상기 제1 발성과 상기 제2 발성을 기초로 상기 제3 발성을 생성하는 cGAN(conditional Generative Adversarial Network) 모듈이 마련된 음성 합성 장치.
According to claim 1,
and a conditional generative adversarial network (cGAN) module configured to generate the third utterance based on the first utterance and the second utterance.
제5항에 있어서,
상기 제1 발성이 기등록된 상태에서 상기 제1 발성과 비교 대상이 되는 상기 제2 발성이 입력되면, 상기 cGAN 모듈은 상기 제2 발성을 대체할 수 있는 상기 제3 발성을 생성하는 음성 합성 장치.
6. The method of claim 5,
When the second utterance that is to be compared with the first utterance is input while the first utterance is registered, the cGAN module generates the third utterance that can replace the second utterance .
삭제delete 삭제delete 삭제delete 실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;
상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,
상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 제1 발성을 획득하는 획득 유니트가 마련되고,
상기 획득 유니트는 상기 제1 발성에 복수의 환경을 부가하며,
상기 획득 유니트에 의해 서로 다른 환경이 부가된 상기 제1 발성에 해당하는 복수의 가공 발성이 마련되고,
상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되며,
상기 생성부는 상기 판별부에 의해 상기 제3 발성이 참으로 판별되도록, 상기 가공 발성을 이용하여 상기 제3 발성을 생성하는 음성 합성 장치.
a generator configured to generate a third utterance based on the first actual utterance, the actual second utterance, and random noise;
a determining unit for determining the authenticity of the third utterance with respect to the second utterance;
the generating unit generates the third utterance in a direction in which the second speaker of the second utterance includes the first environment of the first utterance;
an acquisition unit for acquiring the first utterance is provided;
the acquisition unit adds a plurality of circumstances to the first utterance;
A plurality of processed vocalizations corresponding to the first vocalizations to which different environments are added are provided by the acquisition unit;
The determining unit is trained to determine the third utterance as false,
and the generating unit generates the third utterance using the fabricated utterance so that the third utterance is determined as true by the determining unit.
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;
상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,
상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 제1 발성을 획득하는 획득 유니트가 마련되고,
상기 획득 유니트는 상기 제1 발성을 후처리하며, 후처리된 상기 제1 발성을 상기 생성부에 제공하고,
상기 후처리는 제1 처리, 제2 처리 및 제3 처리 중 적어도 하나를 포함하며,
상기 제1 처리는 상기 제1 발성을 다운 샘플링 후 업 샘플링하는 것이고,
상기 제2 처리는 상기 제1 발성에 배경 잡음을 추가하는 것이며,
상기 제3 처리는 상기 제1 발성에 손실 압축 코덱을 적용하는 것인 음성 합성 장치.
a generator configured to generate a third utterance based on the first actual utterance, the actual second utterance, and random noise;
a determining unit for determining the authenticity of the third utterance with respect to the second utterance;
the generating unit generates the third utterance in a direction in which the second speaker of the second utterance includes the first environment of the first utterance;
an acquisition unit for acquiring the first utterance is provided;
the acquiring unit post-processes the first utterance, and provides the post-processed first utterance to the generating unit;
The post-treatment includes at least one of a first treatment, a second treatment and a third treatment,
the first process is to down-sample the first voicing followed by up-sampling;
the second processing is to add background noise to the first utterance,
and the third process applies a lossy compression codec to the first utterance.
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;
상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,
상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 판별부는 제1 조건, 제2 조건 및 제3 조건이 모두 만족되는 경우에 한해 상기 제3 발성을 참으로 판별하도록 학습되고,
상기 제1 조건은 상기 제3 발성이 상기 생성부에 의해 생성된 가짜 데이터가 아니라 진짜 데이터로 판별되는 것이며,
상기 제2 조건은 상기 제3 발성의 화자가 상기 제2 발성의 제2 화자와 동일한 것이고,
상기 제3 조건은 상기 제3 발성의 환경이 상기 제2 발성의 제2 환경과 동일한 것인 음성 합성 장치.
a generator configured to generate a third utterance based on the first actual utterance, the actual second utterance, and random noise;
a determining unit for determining the authenticity of the third utterance with respect to the second utterance;
the generating unit generates the third utterance in a direction in which the second speaker of the second utterance includes the first environment of the first utterance;
The determining unit is trained to determine the third utterance as true only when all of the first condition, the second condition, and the third condition are satisfied,
The first condition is that the third utterance is determined to be real data, not fake data generated by the generator;
The second condition is that the speaker of the third utterance is the same as the second speaker of the second utterance;
The third condition is that the environment of the third utterance is the same as the second environment of the second utterance.
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;
상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,
상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 판별부는 첫번째 발성과 두번째 발성 간의 비교를 통해 학습하고,
상기 첫번째 발성은 상기 제1 발성 또는 상기 제2 발성이며,
상기 두번째 발성은 상기 제1 발성, 상기 제2 발성, 상기 제3 발성 중 하나이고,
상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되고,
상기 생성부는 상기 판별부에 의해서 참으로 판별되는 상기 제3 발성을 생성하도록 학습되며,
상기 판별부의 학습을 실행하고, 상기 생성부의 학습을 실행하는 실행부가 마련되고,
상기 실행부는 상기 생성부가 상기 판별부를 속이는 속임 성공값이 설정값을 만족할 때까지 상기 판별부의 학습과 상기 생성부의 학습을 번갈아 실행하며,
상기 실행부는 상기 판별부의 학습 중에는 상기 생성부의 학습을 중단시키고,
상기 실행부는 상기 생성부의 학습 중에는 상기 판별부의 학습을 중단시키는 음성 합성 장치.
a generator configured to generate a third utterance based on the first actual utterance, the actual second utterance, and random noise;
a determining unit for determining the authenticity of the third utterance with respect to the second utterance;
the generating unit generates the third utterance in a direction in which the second speaker of the second utterance includes the first environment of the first utterance;
The discrimination unit learns through comparison between the first and second vocalizations,
the first utterance is the first utterance or the second utterance,
the second utterance is one of the first utterance, the second utterance, and the third utterance;
The determining unit is trained to determine the third utterance as false,
the generating unit is trained to generate the third utterance determined to be true by the discriminating unit,
An execution unit for executing the learning of the determining unit and executing the learning of the generating unit is provided,
The execution unit alternately executes the learning of the determining unit and the learning of the generating unit until the deception success value at which the generating unit deceives the determining unit satisfies a set value,
The execution unit stops the learning of the generating unit during the learning of the determining unit,
The execution unit stops the learning of the determining unit while the generating unit is learning.
삭제delete 실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;
상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,
상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,
상기 제1 환경 하에서 실제로 녹음된 상기 제2 화자를 갖는 가상의 발성이 목표 발성으로 정의될 때,
상기 생성부와 상기 판별부는 상기 제3 발성이 상기 목표 발성을 추종하도록, GAN(Generative Adversarial Network) 기법에 따라 상호 적대적으로 반복 학습하고,
상기 제1 환경 하에서 실제로 녹음된 상기 제1 화자를 갖는 상기 제1 발성을 상기 제3 발성과 비교하는 인식 유니트가 마련되며,
상기 인식 유니트는 상기 생성부와 상기 판별부의 반복 학습의 결과로 도출된 상기 제3 발성을 이용해서, 서로 동일한 상기 제1 환경 하에서 상기 제1 화자와 상기 제2 화자를 비교하는 음성 합성 장치.
a generator configured to generate a third utterance based on the first actual utterance, the actual second utterance, and random noise;
a determining unit for determining the authenticity of the third utterance with respect to the second utterance;
the generating unit generates the third utterance in a direction in which the second speaker of the second utterance includes the first environment of the first utterance;
When a virtual speech having the second speaker actually recorded under the first environment is defined as a target speech,
The generator and the discriminator repeatedly learn mutually antagonistically according to a GAN (Generative Adversarial Network) technique so that the third utterance follows the target utterance,
a recognition unit is provided for comparing the first utterance having the first speaker actually recorded under the first environment with the third utterance;
and the recognition unit compares the first speaker and the second speaker under the same first environment by using the third utterance derived as a result of repeated learning of the generating unit and the discriminating unit.
KR1020190061001A 2019-05-24 2019-05-24 Speech synthesis device and speech synthesis method KR102273147B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190061001A KR102273147B1 (en) 2019-05-24 2019-05-24 Speech synthesis device and speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190061001A KR102273147B1 (en) 2019-05-24 2019-05-24 Speech synthesis device and speech synthesis method

Publications (2)

Publication Number Publication Date
KR20200134868A KR20200134868A (en) 2020-12-02
KR102273147B1 true KR102273147B1 (en) 2021-07-05

Family

ID=73791627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190061001A KR102273147B1 (en) 2019-05-24 2019-05-24 Speech synthesis device and speech synthesis method

Country Status (1)

Country Link
KR (1) KR102273147B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141354A (en) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for voice synthesis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (en) * 2006-01-19 2009-03-18 株式会社東芝 Speech processing apparatus and method
KR101618512B1 (en) 2015-05-06 2016-05-09 서울시립대학교 산학협력단 Gaussian mixture model based speaker recognition system and the selection method of additional training utterance

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141354A (en) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> Method, apparatus and program for voice synthesis

Also Published As

Publication number Publication date
KR20200134868A (en) 2020-12-02

Similar Documents

Publication Publication Date Title
US11887582B2 (en) Training and testing utterance-based frameworks
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
CN105938716B (en) A kind of sample copying voice automatic testing method based on the fitting of more precision
Prasanna et al. Extraction of speaker-specific excitation information from linear prediction residual of speech
US7447632B2 (en) Voice authentication system
US8762149B2 (en) Method for verifying the identity of a speaker and related computer readable medium and computer
KR20230018538A (en) System and method for voice-to-voice conversion
US20160372116A1 (en) Voice authentication and speech recognition system and method
Justin et al. Speaker de-identification using diphone recognition and speech synthesis
US9548054B2 (en) Speaker authentication methods and related methods of electronic devices using calendar data
Singh Forensic and Automatic Speaker Recognition System.
CN113330511B (en) Voice recognition method, voice recognition device, storage medium and electronic equipment
Rodman Speaker recognition of disguised voices: A program for research
CN112507311A (en) High-security identity verification method based on multi-mode feature fusion
CN115171731A (en) Emotion category determination method, device and equipment and readable storage medium
KR100779242B1 (en) Speaker recognition methods of a speech recognition and speaker recognition integrated system
Gade et al. A comprehensive study on automatic speaker recognition by using deep learning techniques
CN112667787A (en) Intelligent response method, system and storage medium based on phonetics label
KR102273147B1 (en) Speech synthesis device and speech synthesis method
CN103390406A (en) Speaker authentication method, preparation method of speaker authentication and electronic device
KR20210000802A (en) Artificial intelligence voice recognition processing method and system
Gupta et al. Text dependent voice based biometric authentication system using spectrum analysis and image acquisition
Lotia et al. A review of various score normalization techniques for speaker identification system
Hari et al. Comprehensive Research on Speaker Recognition and its Challenges
Ertaş Fundamentals of speaker recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant