KR20190143116A - Talk auto-recording apparatus method - Google Patents

Talk auto-recording apparatus method Download PDF

Info

Publication number
KR20190143116A
KR20190143116A KR1020180070668A KR20180070668A KR20190143116A KR 20190143116 A KR20190143116 A KR 20190143116A KR 1020180070668 A KR1020180070668 A KR 1020180070668A KR 20180070668 A KR20180070668 A KR 20180070668A KR 20190143116 A KR20190143116 A KR 20190143116A
Authority
KR
South Korea
Prior art keywords
language
text
audio signal
speaker
conversation
Prior art date
Application number
KR1020180070668A
Other languages
Korean (ko)
Inventor
문장원
Original Assignee
주식회사 샤우터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 샤우터 filed Critical 주식회사 샤우터
Priority to KR1020180070668A priority Critical patent/KR20190143116A/en
Publication of KR20190143116A publication Critical patent/KR20190143116A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

According to an embodiment of the present invention, a device for automatically storing a dialogue with less data and a method thereof. The device comprises: an audio signal obtaining unit obtaining an audio signal; a language identifying unit obtaining language information by performing language recognition by a predesigned method from the audio signal; a language recognition rate determining unit analyzing a language recognition rate of the language identifying unit by the predesigned method and comparing the analyzed language recognition rate with a preset reference recognition rate to determine whether a recognized language is stored; and a text storage unit storing language information recognized in the language identifying unit according to the control of the language recognition rate determining unit in a text form.

Description

대화 자동 저장 장치 및 방법{TALK AUTO-RECORDING APPARATUS METHOD}TALK AUTO-RECORDING APPARATUS METHOD}

본 발명은 대화 저장 장치 및 방법에 관한 것으로, 특히 평상시 대화를 자동 저장 장치 및 방법에 관한 것이다.The present invention relates to a conversation storage device and method, and more particularly to an automatic storage device and method for normal conversation.

스마트 폰, 노트북 등과 같은 다양한 모바일 기기의 보급이 확대됨과 더불어 모바일 기기의 성능이 급속하게 향상됨에 따라 모바일 기기의 기능을 다양한 분야에 활용하고자 하는 시도가 증가하고 있다.As the spread of various mobile devices such as smart phones and laptops has been expanded, the performance of mobile devices has been rapidly improved, and attempts to utilize the functions of mobile devices in various fields are increasing.

그리고 모바일 기기의 활용 용도 중 하나로 음성 녹음(Voice Recording)이 있다. 음성 녹음은 마이크 센서를 통해 입력되는 신호를 저장하며, 학생들의 강의 녹음, 기자들의 취재 내용 녹음, 전화의 통화 내용 녹음, 각종 텔레마케팅의 내역 녹음 등과 같은 다양한 분야에서 이용되고 있으며, 그 적용 범위가 더욱 확대되고 있다.One of the applications of mobile devices is voice recording. Voice recording stores signals input through the microphone sensor and is used in various fields such as student lecture recording, reporter recording, telephone call recording, and telemarketing history recording. It is expanding further.

그러나 음성 녹음은 마이크 센서 등을 통해 입력되는 오디오 신호를 단순 저장할 뿐으로, 내용적으로 유의미한 오디오 신호를 구분하지 못하여 무의미한 오디오 신호도 모두 저장하므로, 저장되는 신호의 데이터 량이 크게 증가하게 된다.However, the voice recording merely stores the audio signal input through the microphone sensor and the like, and does not distinguish the meaningful audio signal in content, thereby storing all the meaningless audio signals, thereby greatly increasing the amount of data stored.

이러한 데이터 량의 증가는 데이터 저장 용량의 한계를 유발하므로, 기존에는 상시 녹음 방식이 아니라 사용자 명령에 응답하여 녹음을 시작 및 종료하는 수동 방식에 의존하고 있다. 따라서 사용자가 대화 중과 같은 일상 생활을 영위하는 동안 중요한 내용이 발화되더라도, 사용자 명령을 인가하지 못하여 녹음을 수행하지 못하고 지나치는 경우가 빈번하게 발생하고 있다. 즉 음성 녹음 기능을 효율적으로 이용하지 못하고 있다.Since the increase of the data amount causes a limitation of the data storage capacity, the conventional method relies on the manual method of starting and ending the recording in response to a user command, rather than the continuous recording method. Therefore, even if important contents are uttered while the user is conducting daily life such as during a conversation, the user cannot approve the user's command and often fails to record. That is, the voice recording function is not used efficiently.

또한 음성 녹음은 저장된 음성의 내용을 직관적으로 확인하기 어렵다는 문제가 있다. 즉 음성을 파일 형태로 저장하고 일정 시간이 지난 이후에는, 음성이 저장된 다수의 파일 중 어떤 파일에 어떠한 내용이 저장되어 있는지 사용자가 기억하지 못하게 되어, 이후 원하는 내용을 찾기 위해서는 다수의 음성 파일을 다시 전면 재검토해야 하는 문제가 발생한다.In addition, voice recording has a problem that it is difficult to intuitively check the contents of the stored voice. In other words, after a certain amount of time is saved after the voice is stored in a file format, the user cannot remember which content is stored in which of the plurality of files in which the voice is stored. A problem arises that requires a full review.

뿐만 아니라, 특정 음성 파일에 원하는 내용이 저장되어 있는 것을 알고 있다 하더라도, 시각이 아닌 청각적 음성 정보가 시간의 흐름에 따라 저장된 음성 파일에서는 해당 내용이 어떤 시간 위치에 존재하는지 알 수 없어서 음성 파일의 전체 내용을 검토해야 하는 문제가 있다.In addition, even if you know that the desired content is stored in a particular voice file, the audio file is stored in the voice file. There is a problem that needs to be reviewed.

일 예로 학생들이 3시간의 강의 내용 중 특정 내용에 대해 확인하고자 하는 경우에, 최악의 경우 3시간의 강의 내용을 모두 재청취해야 하는 경우가 발생할 수 있다. 이는 사용자의 시간을 낭비하게 하는 요소가 될 뿐만 아니라, 사용자의 모바일 기기에 이미 포함되어 있는 음성 녹음 기능을 활용하지 않도록 하는 장애 요소가 되고 있다.For example, if a student wants to check a specific content of a 3-hour lecture, the worst case may be to re-listen to the 3-hour lecture. Not only is this a waste of time for the user, it is also an obstacle to not using the voice recording function already included in the user's mobile device.

한국 공개 특허 제10-2000-0064186호 (2000.11.06 공개)Korean Unexamined Patent No. 10-2000-0064186 (published Nov. 6, 2000)

본 발명의 목적은 평상시 대화 내용을 적은 데이터 용량으로 자동으로 저장할 수 있는 대화 자동 저장 장치 및 방법을 제공하는데 있다.SUMMARY OF THE INVENTION An object of the present invention is to provide an automatic conversation storage device and a method for automatically storing conversation contents in a small data capacity.

본 발명의 다른 목적은 음성 인식을 통해 대화 여부를 판별하고, 판별된 대화를 텍스트 형태로 저장하는 대화 자동 저장 장치 및 방법을 제공하는데 있다.Another object of the present invention is to provide a method and apparatus for automatically saving a conversation, which determines whether a conversation is performed through voice recognition and stores the determined conversation in a text form.

본 발명의 또 다른 목적은 입력되는 오디오 신호를 화자별로 구분하고, 구분된 화자별 대화를 구분하여 자동 저장하는 대화 자동 저장 장치 및 방법을 제공하는데 있다.It is still another object of the present invention to provide an automatic dialogue storage device and method for automatically classifying an input audio signal for each speaker and automatically storing the divided dialogue for each speaker.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 대화 자동 저장 장치는 오디오 신호를 획득하는 오디오 신호 획득부; 상기 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 언어 식별부; 기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 언어 인식률 판별부; 및 상기 언어 인식률 판별부의 제어에 따라 상기 언어 식별부에서 인식된 언어 정보를 텍스트 형태로 저장하는 텍스트 저장부; 를 포함한다.Automatic conversation storage device according to an embodiment of the present invention for achieving the above object is an audio signal acquisition unit for obtaining an audio signal; A language identifier for performing language recognition from the audio signal in a predetermined manner to obtain language information; A language recognition rate determination unit for analyzing a language recognition rate of the language identification unit in a predetermined manner, and determining whether to store the recognized language by comparing the analyzed language recognition rate with a preset reference recognition rate; And a text storage unit storing language information recognized by the language identification unit in a text form under the control of the language recognition rate determination unit. It includes.

상기 오디오 신호 획득부는 미리 지정된 주기 단위로 상기 오디오 신호를 획득하고, 상기 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득할 수 있다.The audio signal acquisition unit obtains the audio signal in a predetermined period unit, and if the intensity of the audio signal is less than a predetermined reference intensity or if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, the audio signal The acquisition of can be stopped and the audio signal can be acquired again in the next period.

상기 언어 식별부는 상기 오디오 신호에서 노이즈 신호를 제거하고, 노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득할 수 있다.The language identifier may remove the noise signal from the audio signal, and perform language recognition on the audio signal from which the noise signal is removed to obtain the language information.

상기 언어 식별부는 기지정된 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망으로 구현될 수 있다.The language identifier may be embodied as at least one artificial neural network learned in advance according to a predetermined pattern recognition technique.

상기 언어 식별부는 상기 언어 인식을 수행하여 텍스트 형태의 상기 언어 정보를 획득할 수 있다.The language identifier may acquire the language information in the form of text by performing the language recognition.

상기 텍스트 저장부는 상기 언어 정보를 인가받아 텍스트로 변환하여 저장할 수 있다.The text storage unit may receive the language information and convert the text information into text.

상기 대화 자동 저장 장치는 상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 음성 신호 저장부; 및 임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하고, 구분된 화자에 대한 화자 구분자를 상기 텍스트 저장부로 전달하며, 구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 상기 텍스트 저장부로 전달하는 화자 구분부; 를 더 포함할 수 있다.The automatic conversation storage device may include: a voice signal storage unit configured to temporarily receive and receive a voice signal corresponding to the recognized language information; And analyzing the temporarily stored voice signal, classifying the speaker of the voice signal, transferring a speaker separator for the divided speaker to the text storage unit, and if there is a recognizable speaker among the divided speakers, A speaker separator for transmitting an identifier to the text storage unit; It may further include.

상기 텍스트 저장부는 상기 화자 구분자를 인가받아 상기 텍스트의 각 문장에 대응하는 화자 구분자를 추가로 삽입하고, 화자 인식 정보가 존재하는 경우, 상기 화자별로 구분된 텍스트의 각 문장에 상기 식별자를 삽입할 수 있다.The text storage unit may be further configured to insert a speaker delimiter corresponding to each sentence of the text by receiving the speaker delimiter, and to insert the identifier in each sentence of the text divided by the speaker, when speaker recognition information exists. have.

상기 언어 인식률 판별부는 사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하고, 상기 음성 신호 저장부는 상기 언어 인식률 판별부의 제어에 따라 임시 저장된 음성 신호를 계속 저장하거나 삭제할 수 있다.The language recognition rate determination unit may determine whether to store the voice signal according to a user command or a predetermined setting value, and the voice signal storage unit may continue to store or delete the temporarily stored voice signal under the control of the language recognition rate determination unit.

상기 텍스트 저장부는 상기 음성 신호 저장부에 음성 신호가 저장되어 있으면, 저장된 텍스트의 각 구문에 대응하는 음성 신호를 매칭하여 링크하여 저장하고, 링크된 텍스트의 구문이 선택되면, 링크된 음성 신호를 재생할 수 있다.If the voice signal is stored in the voice signal storage unit, the text storage unit matches and links a voice signal corresponding to each phrase of the stored text, and if the phrase of the linked text is selected, reproduces the linked voice signal. Can be.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 대화 자동 저장 방법은 오디오 신호를 획득하는 단계; 획득된 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 단계; 기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 단계; 및 언어 인식률이 기준 인식률 이상이면, 인식된 상기 언어 정보를 텍스트 형태로 저장하는 단계; 를 포함한다.According to an aspect of the present invention, there is provided a method for automatically storing a conversation, the method including: obtaining an audio signal; Obtaining language information by performing language recognition from the obtained audio signal in a predetermined manner; Analyzing a language recognition rate of the language identification unit in a predetermined manner, and comparing the analyzed language recognition rate with a predetermined reference recognition rate to determine whether to store the recognized language; And storing the recognized language information in text form if the language recognition rate is equal to or greater than a reference recognition rate. It includes.

따라서, 본 발명의 대화 자동 저장 장치 및 방법은 음성 인식을 이용하여 음성 인식이 성공하는 경우에만 대화를 저용량의 텍스트로 변환하여 저장함으로써, 상시적으로 대화를 저장할 수 있도록 한다.Accordingly, the automatic conversation storage device and method of the present invention converts the conversation into low-capacity text only when the speech recognition succeeds using the speech recognition, thereby allowing the conversation to be stored at all times.

또한 화자 인식을 통해 텍스트로 변환된 대화를 화자별 대화를 구분하여 저장함으로써, 다수의 화자 사이의 대화의 내용을 사용자가 인지하기 용이한 형태로 저장할 수 있다. 그러므로 사용자가 텍스트로 저장된 대화 내용을 시각적으로 인지할 수 있으며, 대화가 진행되는 시간의 흐름에 제약되지 않고 대화 내용을 용이하게 탐색할 수 있도록 한다.In addition, conversations converted to text through speaker recognition are classified and stored for each speaker, so that contents of conversations between a plurality of speakers can be stored in a form that is easy for a user to recognize. Therefore, the user can visually recognize the conversation contents stored as text, and can easily navigate the conversation contents without being restricted by the passage of time.

그러므로 사용자는 강의 내용이나 대화 내용 및 취재 내용과 같이 음성으로 제공된 정보를 이후 용이하게 요약 정리할 수 있어, 대화 내용의 관리를 편리하도록 할 수 있다.Therefore, the user can easily summarize information provided by voice, such as lecture contents, conversation contents, and coverage, afterwards, to facilitate the management of conversation contents.

그리고 경우에 따라서 텍스트로 변환된 대화 내용을 오디오 신호와 함께 저장하도록 하여, 사용자가 텍스트를 선택하는 경우, 해당 오디오 신호가 재생되도록 하여 사용자의 편의성을 극대화할 뿐만 아니라, 음성 인식 성능 및 화자 인식 성능을 향상시키기 위한 기반 자료를 용이하게 획득할 수 있도록 하며, 사용자 개개인에게 특화된 음성 인식 및 화자 인식 기능을 제공할 수 있도록 한다.In some cases, the conversation contents converted to text are stored together with the audio signal, and when the user selects the text, the audio signal is reproduced to maximize the user's convenience, as well as speech recognition performance and speaker recognition performance. It is possible to easily obtain the base material to improve the quality of the information, and to provide specialized speech recognition and speaker recognition function to each user.

도1 은 본 발명의 일 실시예에 따른 대화 자동 저장 장치의 개략적 구조를 나타낸다.
도2 는 도1 의 텍스트 저장부의 상세 구성의 일 예를 나타낸다.
도3 은 본 발명의 일 실시예에 따른 대화 자동 저장 방법의 개략적 구조를 나타낸다.
도4 는 본 실시예에 따른 대화 자동 저장 장치 및 방법을 이용하여 대화가 자동 저장되는 과정의 예시를 나타낸다.
1 shows a schematic structure of an automatic conversation storage device according to an embodiment of the present invention.
FIG. 2 shows an example of a detailed configuration of the text storage unit of FIG. 1.
3 shows a schematic structure of a method for automatically storing conversations according to an embodiment of the present invention.
4 illustrates an example of a process in which a conversation is automatically stored by using the apparatus and method for automatically storing conversations according to the present embodiment.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. In order to fully understand the present invention, the operational advantages of the present invention, and the objects achieved by the practice of the present invention, reference should be made to the accompanying drawings which illustrate preferred embodiments of the present invention and the contents described in the accompanying drawings.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In addition, in order to clearly describe the present invention, parts irrelevant to the description are omitted, and the same reference numerals in the drawings indicate the same members.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. Throughout the specification, when a part is said to "include" a certain component, it means that it may further include other components, without excluding the other components unless otherwise stated. In addition, the terms "... unit", "... unit", "module", "block", etc. described in the specification mean a unit for processing at least one function or operation, which means hardware, software, or hardware. And software.

도1 은 본 발명의 일 실시예에 따른 대화 자동 저장 장치의 개략적 구조를 나타낸다.1 shows a schematic structure of an automatic conversation storage device according to an embodiment of the present invention.

도1 을 참조하면, 본 실시예에 따른 대화 자동 저장 장치는 오디오 신호를 획득하는 오디오 신호 획득부(100), 획득된 오디오 신호에서 음성 언어를 식별하는 언어 식별부(200), 언어 식별부(200)의 언어 인식률에 따라 인식된 언어의 저장 여부를 결정하는 언어 인식률 판별부(300), 인식된 언어를 텍스트 형태로 저장하는 텍스트 저장부(400), 음성 신호를 저장하는 음성 저장부(500) 및 저장된 음성 신호를 분석하여 화자를 구분하는 화자 구분부(600)를 포함할 수 있다.Referring to FIG. 1, the automatic conversation storage apparatus according to the present embodiment includes an audio signal acquisition unit 100 for acquiring an audio signal, a language identification unit 200 for identifying a voice language from the acquired audio signal, and a language identification unit ( The language recognition rate determining unit 300 determines whether to store the recognized language according to the language recognition rate of the 200, the text storage unit 400 for storing the recognized language in text form, and the voice storage unit 500 for storing the voice signal. And a speaker divider 600 for analyzing the stored voice signal to distinguish the speaker.

오디오 신호 획득부(100)는 오디오 신호를 획득하여 전달한다. 오디오 신호 획득부(100)는 마이크와 같은 센서로 구현되거나 통신 모듈 등으로 구현될 수 있으며, 오디오 신호를 획득할 수 있는 다양한 장치로 구현될 수 있다. 여기서 오디오 신호에는 사람의 발화에 의한 음성 신호와 음성 신호 이외의 주변 잡음과 같은 노이즈 신호가 포함될 수 있다.The audio signal acquisition unit 100 obtains and transmits an audio signal. The audio signal acquisition unit 100 may be implemented by a sensor such as a microphone or a communication module, or may be implemented by various devices capable of acquiring an audio signal. In this case, the audio signal may include a voice signal caused by human speech and a noise signal such as ambient noise other than the voice signal.

그리고 오디오 신호 획득부(100)는 획득된 오디오 신호를 그대로 전달하지 않고, 언어 식별부(200)가 음성을 인식하여 언어를 식별 용이한 형태로 변환하여 전달할 수 있다. 일 예로 오디오 신호 획득부(100)는 시간 차원에서의 1차원 파형 그래프 형태로 표현될 수 있는 오디오 신호를 2차원 그래프 형태의 주파수 스펙트럼 그래프로 변환하여 전달 할 수 있다. 이를 위해 오디오 신호 획득부(100)는 고속 퓨리에 변환(FFT)과 같은 변환 작업을 수행할 수 있다.In addition, the audio signal acquisition unit 100 may not transmit the obtained audio signal as it is, and the language identification unit 200 may recognize the voice and convert the language into an easily identifiable form. As an example, the audio signal acquisition unit 100 may convert an audio signal, which may be expressed in the form of a one-dimensional waveform graph in the time dimension, into a frequency spectrum graph in the form of a two-dimensional graph and transmit the converted audio signal. To this end, the audio signal acquisition unit 100 may perform a conversion operation such as fast Fourier transform (FFT).

일반적으로 시간 차원의 1차원 파형 그래프는 오디오 신호의 특징을 추출하기 어렵기 때문에 입력된 오디오 신호에서 음성 신호와 노이즈 신호를 구분하기 어려울 뿐만 아니라, 음성 인식이 용이하지 않다. 이에 오디오 신호 획득부(100)는 1차원 파형 그래프 형태로 표현되는 오디오 신호를 2차원의 주파수 스펙트럼으로 변환하여 언어 식별부(200)로 전달할 수 있다.In general, since one-dimensional waveform graphs in the time dimension are difficult to extract features of an audio signal, it is difficult to distinguish a voice signal and a noise signal from an input audio signal, and speech recognition is not easy. Accordingly, the audio signal acquisition unit 100 may convert the audio signal expressed in the form of a 1D waveform graph into a 2D frequency spectrum and transmit the converted audio signal to the language identification unit 200.

오디오 신호 획득부(100)는 항시 오디오 신호를 획득하도록 구성될 수 있다. 오디오 신호 획득부(100)가 항시 오디오 신호를 획득하도록 구성되더라도, 본 실시예에 따른 대화 자동 저장 장치에서는 언어 인식률 판별부(300)가 언어 인식률에 따라 언어 인식 결과의 저장 여부를 판별하여 저장할 뿐만 아니라, 텍스트로 변환하여 저장함으로써, 저장 용량에 의한 제약을 최소화하여 대화를 저장할 수 있다.The audio signal acquisition unit 100 may be configured to always acquire an audio signal. Even if the audio signal acquisition unit 100 is configured to always acquire an audio signal, in the automatic conversation storage apparatus according to the present embodiment, the language recognition rate determining unit 300 may determine whether to store the language recognition result according to the language recognition rate and store the result. Rather, by converting and storing the text, the conversation can be stored with the minimum limit of the storage capacity.

그러나 사용자의 평상시 생활 중에 음성이 발화되는 시간은 전체 시간 중 극히 일부에 지나지 않는다. 따라서 항시 오디오 신호 획득부(100)가 오디오 신호를 획득하도록 구성되면, 불필요하게 전력을 소모할 수 있다. 이는 대화 자동 저장 장치가 모바일 기기와 같이 배터리에 의해 제한된 전력을 사용할 수 밖에 없는 장치에 포함되는 경우, 대화 자동 저장 장치를 사용할 수 없도록 하는 장애 요인이 될 수 있다.However, the time that the voice is uttered during the normal life of the user is only a fraction of the total time. Therefore, when the audio signal acquisition unit 100 is configured to acquire an audio signal at all times, power consumption may be unnecessary. This may be an obstacle to disabling the automatic conversation storage when the automatic conversation storage is included in a device that is forced to use limited power by a battery such as a mobile device.

따라서 오디오 신호 획득부(100)는 기설정된 주기(예를 들면 5분)로 기설정된 시간(예를 들면 10초) 동안 오디오 신호를 획득하고, 획득된 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 오디오 신호의 패턴(주파수 스펙트럼 패턴)이 음성이 아닌 것으로 판별되면, 오디오 신호 획득을 중지 하여 전력 소모를 저감 시킬 수 있으며, 이후 기설정된 시간 이후에 다시 오디오 신호를 획득할 수 있다.Accordingly, the audio signal acquisition unit 100 acquires an audio signal for a preset time (for example, 10 seconds) at a preset period (for example, 5 minutes), and the intensity of the obtained audio signal is less than the preset reference intensity. If it is determined that the pattern (frequency spectrum pattern) of the audio signal is not voice, the audio signal acquisition may be stopped to reduce power consumption, and then the audio signal may be acquired again after a preset time.

오디오 신호의 세기가 기준 세기 미만인 경우, 오디오 신호에서 음성 신호를 추출하더라도 추출된 음성 신호의 세기가 충분하지 않아 음성 신호로부터 언어 인식(또는 음성 인식)이 정상적으로 수행될 수 없다. 따라서 오디오 신호 획득을 중지한다. 또한 오디오 신호의 패턴이 음성 신호에 해당하는 패턴이 아니면, 음성 인식을 수행할 필요가 없으므로, 오디오 신호의 획득을 중지한다.When the intensity of the audio signal is less than the reference intensity, even if the audio signal is extracted from the audio signal, the strength of the extracted speech signal is not sufficient, so that language recognition (or speech recognition) may not be normally performed from the speech signal. Therefore, the audio signal acquisition is stopped. In addition, if the pattern of the audio signal is not a pattern corresponding to the voice signal, it is not necessary to perform voice recognition, and thus the acquisition of the audio signal is stopped.

그리고 오디오 신호 획득부(100)는 언어 인식률 판별부(300)의 제어에 따라 오디오 신호 획득을 계속하거나 중지할 수도 있다. 일예로 오디오 신호 획득부(100)는 언어 인식률 판별부(300)가 획득된 오디오 신호가 언어로서 인식되는 것으로 판별한 경우에, 오디오 신호를 계속 획득할 수 있다. 반면, 획득된 언어로서 인식되지 않는 것으로 판별한 경우, 오디오 신호 획득을 중지할 수 있다.The audio signal acquisition unit 100 may continue or stop the acquisition of the audio signal under the control of the language recognition rate determination unit 300. For example, the audio signal acquisition unit 100 may continue to acquire an audio signal when the language recognition rate determination unit 300 determines that the acquired audio signal is recognized as a language. On the other hand, if it is determined that it is not recognized as the acquired language, the audio signal acquisition may be stopped.

언어 식별부(200)는 오디오 신호 획득부(100)에서 전달되는 오디오 신호로부터 음성 인식을 수행하여 음성 언어를 식별한다. 이를 위해 언어 식별부(200)는 언어 인식부(220)를 포함할 수 있다.The language identification unit 200 identifies a speech language by performing speech recognition from the audio signal transmitted from the audio signal acquisition unit 100. To this end, the language identification unit 200 may include a language recognition unit 220.

그러나 언어 식별부(200)는 음성 언어의 인식률을 향상시키기 위해, 언어 오디오 신호에서 음성 신호를 추출하는 노이즈 제거부(210)를 더 포함할 수 있다.However, the language identifier 200 may further include a noise remover 210 that extracts a speech signal from the language audio signal in order to improve the recognition rate of the speech language.

노이즈 제거부(210)는 오디오 신호 획득부(100)에서 전달되는 오디오 신호에서 노이즈 신호를 제거한다. 노이즈 제거부(210)는 오디오 신호에서 노이즈 성분을 제거하여 전달함으로써, 언어 식별부(200)의 오디오 신호에 대한 음성 인식 성능이 향상되도록 한다.The noise removing unit 210 removes the noise signal from the audio signal transmitted from the audio signal obtaining unit 100. The noise remover 210 removes and transmits a noise component from the audio signal, thereby improving speech recognition performance of the audio signal of the language identifier 200.

언어 인식부(220)는 노이즈 제거부(210)에서 노이즈가 제거된 오디오 신호를 인가받아 언어 인식을 수행한다. 언어 식별부(200)는 일예로 딥 러닝(Deep learning)과 같은 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망(artificial neural network)으로 구현되거나, 기존의 음성 인식 모듈로 구현될 수도 있다.The language recognizer 220 receives the audio signal from which the noise is removed from the noise remover 210 and performs language recognition. For example, the language identification unit 200 may be implemented as at least one artificial neural network that has been previously learned according to a pattern recognition technique such as deep learning, or may be implemented as an existing speech recognition module.

언어 인식부(220)가 인공 신경망으로 구현되는 경우, 언어 인식부(220)는 일 예로 인공 신경망 중 이미지 인식 또는 음성 인식에 탁월한 성능을 나타내는 것으로 알려진 콘볼루션 신경망(Convolutional Neural Networks: 이하 CNN)으로 구현될 수 있으나 이에 한정되지 않는다. 그리고 인공 신경망으로 구현되는 언어 인식부(220)는 패턴 인식 기법에 따라 미리 학습될 수 있다.When the language recognizer 220 is implemented as an artificial neural network, the language recognizer 220 is, for example, a convolutional neural network (CNN) known to exhibit excellent performance in image recognition or speech recognition among artificial neural networks. It may be implemented but is not limited thereto. The language recognition unit 220 implemented as an artificial neural network may be learned in advance according to a pattern recognition technique.

언어 인식률 판별부(300)는 언어 인식부(220)의 언어 인식 결과를 분석하여, 언어 정보의 저장 여부를 판별한다.The language recognition rate determination unit 300 analyzes the language recognition result of the language recognition unit 220 to determine whether to store language information.

언어 인식률 판별부(300)는 기지정된 방식으로 언어 인식부(220)의 언어 인식률을 계산하고, 계산된 언어 인식률이 기설정된 기준 인식률 이상인지 판별한다. 여기서 언어 인식률은 일예로 획득된 전체 오디오 신호에서 언어 인식이 수행된 언어 신호의 구간의 비로서 계산될 수 있다. 그리고 언어 인식률 판별부(300)는 언어 인식률이 기준 인식률 이상이면, 언어 인식부(220)가 인식한 언어 정보를 텍스트 저장부(400)로 전송하여 인식된 언어가 텍스트 형태로 저장되도록 한다.The language recognition rate determination unit 300 calculates a language recognition rate of the language recognition unit 220 in a predetermined manner, and determines whether the calculated language recognition rate is equal to or greater than a predetermined reference recognition rate. In this case, the language recognition rate may be calculated as a ratio of the intervals of the language signals on which language recognition is performed on the entire audio signal obtained as an example. When the language recognition rate is greater than or equal to the reference recognition rate, the language recognition rate determining unit 300 transmits the language information recognized by the language recognition unit 220 to the text storage unit 400 so that the recognized language is stored in the text form.

본 실시예에서는 인식된 언어 정보를 텍스트 형태로 저장되도록 함으로써, 저장 공간에 대한 제약을 최소화하면서 대화 내용이 저장될 수 있도록 한다.In the present embodiment, the recognized language information is stored in the form of text, so that the contents of the conversation can be stored while minimizing the restriction on the storage space.

또한 언어 인식률 판별부(300)는 판별 결과에 따라 오디오 신호 획득부(100)를 제어하여 오디오 신호 획득부(100)가 오디오 신호를 계속 획득하거나 중지하도록 한다. 추가적으로 언어 인식률 판별부(300)는 음성 신호를 음성 저장부(500)로 전달하고, 기저장된 설정값 또는 사용자 명령에 응답하여 음성 신호의 저장 여부를 결정할 수 있다.In addition, the language recognition rate determination unit 300 controls the audio signal acquisition unit 100 according to the determination result so that the audio signal acquisition unit 100 continues to acquire or stop the audio signal. In addition, the language recognition rate determining unit 300 may transmit the voice signal to the voice storage unit 500 and determine whether to store the voice signal in response to a preset value or a user command.

여기서 언어 인식률 판별부(300)가 음성 신호를 저장할 수 있도록 하는 것은 매우 중요한 대화 내용의 경우, 음성 신호 자체가 필요할 수도 있기 때문이다. 대화 내용이 텍스트 형태로 저장되는 경우, 대화 내용을 저용량으로 용이하게 파악할 수 있으나, 중요한 대화의 경우, 텍스트로 표현될 수 없는 음성의 미묘한 어감의 변화가 필요할 수 있다.Here, the language recognition rate determining unit 300 may store the voice signal because the voice signal itself may be necessary in the case of very important conversation contents. When the conversation contents are stored in the form of text, the contents of the conversation can be easily understood at a low volume. However, in the case of important conversations, a subtle change in the speech that cannot be expressed in text may be required.

이에 사용자는 항시 저장되는 텍스트와 별도로 설정값을 미리 설정하거나, 음성 저장의 필요성이 있는 경우, 기존과 같이 음성 저장부(500)에 오디오 신호가 저장되도록 명령할 수 있다.Accordingly, the user may preset the setting value separately from the text to be stored at all times, or when there is a necessity of storing the voice, the user may instruct the voice storage unit 500 to store the audio signal as before.

텍스트 저장부(400)는 음성 인식된 대화 내용을 텍스트 형태로 변환하여 저장한다. 이때 텍스트 저장부(400)는 간단하게 확인 가능한 문법적 오류를 자동으로 수정하여 저장할 수도 있다.The text storage unit 400 converts the voice recognized conversation content into a text form and stores the converted text. In this case, the text storage unit 400 may automatically correct and store a grammatical error that can be simply checked.

경우에 따라서, 언어 인식부(220)는 텍스트 형태의 언어 정보를 이용하여 음성 인식을 수행하도록 구성될 수도 있다. 이 경우, 텍스트 저장부(400)는 인식된 대화 내용을 텍스트 형태로 변환하는 과정을 수행하지 않을 수도 있다.In some cases, the language recognizer 220 may be configured to perform speech recognition using language information in a text form. In this case, the text storage unit 400 may not perform a process of converting the recognized conversation content into text form.

한편, 음성 저장부(500)는 기존의 대화 저장 장치에서와 유사하게 음성 신호를 인가받아 저장한다. 다만 본 실시에에서 음성 저장부(500)는 언어 인식률 판별부(300)에서 언어로서 인식 가능한 것으로 판별된 음성 신호를 저장하므로, 무의미한 노이즈 신호 및 음성 신호를 배제하고 저장할 수 있어 상대적으로 저용량으로 음성 신호를 저장할 수 있다.Meanwhile, the voice storage unit 500 receives and stores a voice signal similarly to the conventional conversation storage device. However, in the present exemplary embodiment, since the voice storage unit 500 stores the voice signal determined to be recognized as a language by the language recognition rate determining unit 300, the voice storage unit 500 can exclude and store a noise signal and a voice signal that are relatively low in volume. The signal can be stored.

또한 음성 저장부(500)는 음성 신호를 텍스트 저장부(400)에 저장되는 텍스트 중 대응하는 구문에 매칭시켜 저장할 수 있다. 이는 사용자가 저장된 텍스트를 탐색하는 중 이에 대응하는 음성 신호를 확인하고자 할 때, 즉각적으로 음성 신호를 재생시킬 수 있도록 하기 위함이다.Also, the voice storage unit 500 may match the voice signal with a corresponding phrase among texts stored in the text storage unit 400 and store the same. This is to allow the user to instantly reproduce the voice signal when the user wants to check the corresponding voice signal while searching the stored text.

이를 위해, 언어 인식률 판별부(300)는 텍스트와 함께 음성 신호를 저장하도록 설정된 경우, 오디오 신호가 저장되는 파일명 및 대응하는 오디오 신호 구간을 하이퍼 링크(hyper link) 등의 형태로 텍스트의 대응하는 구문에 링크 시켜, 사용자가 해당 구문을 선택하면 대응하는 음성이 재생되도록 할 수도 있다.To this end, when the language recognition rate determining unit 300 is configured to store a voice signal together with the text, the corresponding syntax of the text in the form of a hyper link or the like in the form of a hyperlink or a file name where the audio signal is stored and the corresponding audio signal section are stored. Can be linked to a corresponding voice when the user selects the phrase.

그리고 텍스트 저장부(400)는 사용자가 음성 신호가 매칭된 구문과 음성 신호가 매칭되지 않은 구문을 용이하게 구분할 수 있도록, 해당 구문의 색상을 변경하는 등과 같이 다양한 방식으로 텍스트를 구분하여 표시할 수 있다.The text storage unit 400 may distinguish and display text in various ways such as changing a color of a corresponding phrase so that a user may easily distinguish between a phrase matching a voice signal and a phrase not matching a voice signal. have.

화자 구분부(600)는 음성 저장부(500)에 저장된 음성 신호를 분석하여 화자를 구분하고 구분된 화자에 대한 화자 구분자를 텍스트 저장부(400)로 전송할 수 있다.The speaker divider 600 may analyze a voice signal stored in the voice storage 500 to classify speakers and transmit a speaker delimiter for the divided speakers to the text storage 400.

음성 신호가 직접 저장되는 경우에 비해 텍스트 형태로 변환되어 저장되는 경우, 여러 장점이 존재하지만, 단점 또한 발생하게 된다. 이러한 단점 중 가장 대표적인 것이, 대화의 발화자를 구분할 수 없음에 따라 사용자가 저장된 텍스트로부터 대화의 내용을 용이하게 이해하지 못하는 것이다.When a voice signal is stored in a text form compared to a case where it is directly stored, there are various advantages, but disadvantages also occur. The most representative of these shortcomings is that the user cannot easily understand the contents of the conversation from the stored text as the speaker of the conversation cannot be distinguished.

강의 또는 발표와 같은 특별한 환경 조건에서는 오디오 신호에 한 명의 발화자가 발화한 음성 신호만이 포함될 수도 있으나, 대부분의 환경에서 사용자는 대화를 위해 발화하므로, 오디오 신호에는 한 사람의 음성 신호만이 포함되지 않고, 불특정 다수의 사람들의 음성 신호가 포함된다.In special environmental conditions, such as lectures or presentations, an audio signal may contain only a voice signal spoken by one speaker, but in most circumstances, a user speaks for conversation, so the audio signal does not contain only one voice signal. And voice signals from an unspecified number of people.

따라서 음성 신호가 저장되고 사용자가 저장된 음성 신호를 재생하여 청취하는 경우, 사용자는 발화자의 음성 특징, 즉 화자 특징으로부터 발화자를 용이하게 구분할 수 있는 반면, 텍스트로 변환된 경우, 발화자의 음성 특징이 소실됨에 따라, 각각의 발화자를 구분할 수 없다. 이는 사용자가 변환된 텍스트에서 현재 문장을 누가 발화하였는지를 인지하지 못하게 하여, 대화의 흐름을 이해하기 어렵게 한다.Therefore, when the voice signal is stored and the user reproduces and listens to the stored voice signal, the user can easily distinguish the talker from the talker's voice feature, that is, the talker feature, while the voice feature of the talker is lost when converted into text. As a result, each speaker cannot be distinguished. This makes it difficult for the user to recognize who spoke the current sentence in the translated text, making it difficult to understand the flow of the conversation.

이에 본 실시예에서는 화자 구분부(600)가 각 화자별 음성 신호의 특징을 추출하여 화자를 구분할 수 있도록 함으로써, 음성 신호가 텍스트로 변환되어 저장된 이후에도 사용자가 텍스트의 각 문장에 대한 발화자를 서로 구분하여 인식할 수 있도록 한다. 즉 사용자가 저장된 텍스트로부터 대화 내용을 용이하게 이해할 수 있도록 한다.Thus, in the present embodiment, the speaker separator 600 extracts the features of the voice signal for each speaker to distinguish the speaker, so that the user distinguishes the speaker for each sentence of the text even after the voice signal is converted into text. To be recognized. That is, the user can easily understand the contents of the conversation from the stored text.

다만 본 실시예에서 화자 구분부(600)는 화자 인식이 아니 발화자의 구분을 주목적으로 한다. 대화 자동 저장 장치의 사용자는 불특정 다수와의 대화를 저장할 수 있다. 따라서 대부분의 개별 화자에 대한 정보가 미리 저장될 수 없기 때문에 화자 인식이 용이하지 않다. 그러므로 화자 구분부(600)는 기본적으로 화자의 구분을 위해 이용된다.However, in the present exemplary embodiment, the speaker divider 600 mainly focuses on the division of the talker, not the speaker recognition. A user of the automatic conversation storage device may store a conversation with an unspecified number. Therefore, the speaker recognition is not easy because the information on most individual speakers cannot be stored in advance. Therefore, the speaker divider 600 is basically used to distinguish the speaker.

그러나 대화 자동 저장 장치를 보유하는 사용자의 음성과 같이 지정된 일부 사용자의 음성 및 사용자 정보는 상대적으로 용이하게 획득될 수 있다. 예를 들어, 대화 자동 저장 장치가 스마트 폰과 같은 통화 기기로 구현되는 경우, 사용자는 전화 통화 시에 주소록 등으로부터 대화 상대의 정보를 획득할 수 있다.However, the voice and user information of some designated users, such as the voice of the user having the automatic conversation storage device, can be obtained relatively easily. For example, when the automatic conversation storage device is implemented as a calling device such as a smart phone, the user may obtain information of the conversation partner from an address book or the like during a phone call.

따라서, 화자 구분부(600)는 판별 가능한 일부 발화자에 대해서는 화자 인식을 수행할 수도 있다. 특히 대화 자동 저장 장치에서 사용자는 가장 많은 횟수 및 데이터 량으로 입력될 가능성이 높은 발화자이다. 그리고 대화에서 다수의 발화자 각각을 모두 인식하지 못하더라도, 사용자 자신의 발화 내용과 타인의 발화 내용을 구분하는 것만으로도, 이후 사용자가 대화의 내용을 이해하기가 더욱 용이해진다. 그러므로 화자 구분부(600)는 각각의 발화자의 먼저 구분하며, 구분된 발화자 중 인식 가능한 발화자에 대해서 화자 인식을 수행할 수 있다.Therefore, the speaker divider 600 may perform speaker recognition on some discriminatable talkers. Especially in the automatic conversation storage device, the user is a speaker who is most likely to be input the most number and amount of data. And even if the conversation does not recognize each of the plurality of talkers, it is easier for the user to understand the contents of the conversation later only by distinguishing the contents of the user's own speech from others. Therefore, the speaker divider 600 may distinguish each talker first and perform speaker recognition on the recognizers who are recognized among the divided talkers.

여기서 화자 구분부(600)는 음성 신호로부터 분석되는 음정의 높낮이, 음색, 음조 등과 같은 화자별 특징을 추출하고, 추출된 특징에 따라 화자별 음성 신호를 구분할 수 있다. 일 예로 화자 구분부(600)는 음성 신호를 분석하여, 남성인지 또는 여성인지, 지역별 억양을 사용하는지 등등을 분류함으로써, 음성 신호에서 화자의 수 및 각 화자의 발화 구간을 구분할 수 있다. 또한 화자별 음성 신호의 특징을 추출할 수 있다.Here, the speaker divider 600 may extract speaker-specific features such as pitch, tone, tone, and the like analyzed from the voice signal, and classify the speaker-specific voice signals according to the extracted features. As an example, the speaker divider 600 may classify whether the speaker is a male or a female, use an accent for each region, and the like to distinguish the number of speakers and the speech section of each speaker from the voice signal. In addition, it is possible to extract the characteristics of the speech signal for each speaker.

텍스트 저장부(400)는 화자 구분부(600)에 의해 각 텍스트 구문에 대한 화자가 구분 가능한 경우, 화자별로 구문을 구분하여 화자별 텍스트로 저장할 수 있다. 이때 구분된 화자별 구문에 화자 구분자를 삽입할 수 있다. 텍스트 저장부(400)는 일예로 각 화자별 구문의 첫머리에 U1, U2, U3과 같은 구분자를 삽입하여 사용자가 텍스트를 용이하게 이해할 수 있도록 할 수 있다.When the speaker for each text phrase is distinguishable by the speaker separator 600, the text storage unit 400 may divide the phrase for each speaker and store the text for each speaker. In this case, the speaker delimiter may be inserted into the divided speaker syntax. For example, the text storage unit 400 may insert delimiters such as U1, U2, and U3 at the beginning of each speaker's syntax so that the user may easily understand the text.

또한 텍스트 저장부(400)는 화자 구분부(600)에서 화자 인식이 가능한 경우, 인식된 화자의 식별자를 변환된 텍스트에 삽입하여 함께 저장할 수 있다. 예로서 텍스트 저장부(400)는 구분된 구문의 화자 중 인식 가능한 화자인 사용자의 구문에 대해 "U1" 대신 "나"라는 식별자를 삽입하여 저장할 수 있다.In addition, when the speaker recognizer recognizes the speaker in the speaker separator 600, the text storage unit 400 may insert the recognized speaker identifier into the converted text and store the same together. For example, the text storage unit 400 may insert and store an identifier of "I" instead of "U1" with respect to a syntax of a user who is a recognizable speaker among the divided phrase speakers.

화자 구분부(600)가 음성 식별부(200)에 포함되지 않고, 별도로 구성되는 것은 실시간 화자 인식을 수행하는 것은 매우 어렵기 때문이다. 이에 본 실시예에서 화자 구분부(600)는 음성 저장부(500)에 저장된 음성 신호를 분석하여 화자를 구분하도록 한다. 그러나 화자 구분부(600)가 실시간으로 화자 인식을 수행하도록 구성되는 경우, 음성 식별부(200)에 포함되도록 구성될 수 있다.The speaker classifier 600 is not included in the voice identifier 200, and is configured separately because it is very difficult to perform real-time speaker recognition. In this embodiment, the speaker divider 600 analyzes the voice signal stored in the voice storage 500 to distinguish the speaker. However, when the speaker divider 600 is configured to perform speaker recognition in real time, it may be configured to be included in the voice identifier 200.

이를 위해 음성 저장부(500)는 언어 인식률 판별부(300)로부터 언어로 인식되는 모든 음성 신호를 인가받아 임시 저장하고, 화자 구분부(600)에서 화자 구분 또는 화자 인식이 된 이후, 인식률 판별부(300)에 설정된 음성 저장 영부에 따라 임시 저장된 음성 신호를 계속 저장하거나, 삭제할 수 있다.To this end, the voice storage unit 500 temporarily receives all the voice signals recognized as a language from the language recognition rate determining unit 300, and then recognizes the speaker or recognizes the speaker in the speaker separating unit 600, and then recognizes the recognition rate determining unit. The temporarily stored voice signal may be continuously stored or deleted according to the voice storage unit set at 300.

도1 에서 음성 저장부(500)와 화자 구분부(600)에 의한 음성 저장 및 화자 구분은 본 실시예에서 사용자의 텍스트 인식의 편의성을 향상 시키기 위한 것으로 필수적 구성은 아니다.In FIG. 1, the voice storage and the speaker classification by the voice storage unit 500 and the speaker separator 600 are intended to improve the user's convenience of text recognition in the present embodiment, and are not essential components.

도2 는 도1 의 텍스트 저장부의 상세 구성의 일 예를 나타낸다.FIG. 2 shows an example of a detailed configuration of the text storage unit of FIG. 1.

도1 을 참조하여 도2 의 텍스트 저장부(400)의 구성을 살펴보면, 테스트 저장부(400)는 기본적으로 텍스트 변환 저장부(410)를 포함하며, 경우에 따라서 텍스트 편집부(420)를 더 포함할 수 있다.Referring to the configuration of the text storage unit 400 of FIG. 2 with reference to FIG. 1, the test storage unit 400 basically includes a text conversion storage unit 410, and optionally further includes a text editing unit 420. can do.

텍스트 변환 저장부(410)는 텍스트 변환부(411) 및 텍스트 구분 저장부(413)을 포함할 수 있다.The text conversion storage unit 410 may include a text conversion unit 411 and a text division storage unit 413.

텍스트 변환부(411)는 언어 인식률 판별부(300)로부터 언어 인식부(220)에서 인식된 음성 언어를 인가받아 음성 언어를 대응하는 텍스트로 변환한다. 언어 인식부(220)는 음성 신호를 지정된 언어 정보에 따라 인식하여 수행할 수 있다. 즉 지정된 언어 정보의 형태로 변환한다. 여기서 언어 정보는 텍스트 형태의 정보일 수 있으나, 텍스트 형태가 아닐 수도 있다.The text converter 411 receives the voice language recognized by the language recognizer 220 from the language recognition rate determiner 300 and converts the voice language into corresponding text. The language recognizer 220 may recognize and perform a voice signal according to designated language information. In other words, it converts to the specified language information type. The language information may be textual information but may not be textual.

이에 텍스트 변환부(411)는 언어 인식부(220)에서 음성 신호가 텍스트 형태가 아닌 언어 정보로 인식되면, 이를 텍스트로 변환하여 출력한다. 그러나 언어 인식부(220)가 텍스트 형태로 음성을 인식하도록 구성된 경우, 텍스트 변환부(411)는 생략될 수 있다. 즉 텍스트 변환부(411)는 언어 인식부(220)와 통합되어 구성될 수 있다.When the text recognition unit 220 recognizes the voice signal as language information rather than a text form, the text conversion unit 411 converts the text signal into text and outputs the converted text. However, when the language recognizer 220 is configured to recognize the speech in the form of text, the text converter 411 may be omitted. That is, the text converter 411 may be integrated with the language recognizer 220.

한편, 텍스트 구분 저장부(413)는 화자 구분부(600)에서 구분된 음성 신호의 발화자에 따라 각 텍스트의 문장 또는 구문을 구분하여 저장한다. 상기한 바와 같이, 화자 구분부(600)는 각 화자의 음성 특징을 추출하여 화자를 구분할 수 있다. 이에 텍스트 구분 저장부(413)는 변환된 텍스트의 각 구문을 화자별로 각각 구분하고, 구분된 구문에 구분자를 부여하여, 서로 다른 화자가 발화한 음성 신호에 대한 언어 인식 결과임이 해당 구문에 표시되도록 한다. 여기서 텍스트 구분 저장부(413)는 동일한 화자에 대한 인식 결과는 동일한 화자임을 사용자가 인식할 수 있도록 동일한 구분자가 텍스트에 표시되도록 한다.Meanwhile, the text division storage unit 413 classifies and stores a sentence or phrase of each text according to the speaker of the speech signal divided by the speaker division unit 600. As described above, the speaker separator 600 may extract a voice feature of each speaker to distinguish the speaker. The text division storage unit 413 classifies each phrase of the converted text for each speaker and assigns a delimiter to the divided phrase so that the phrase is a result of language recognition for speech signals uttered by different speakers. do. Here, the text division storage unit 413 allows the same separator to be displayed in the text so that the user can recognize that the recognition result of the same speaker is the same speaker.

예를 들어, 텍스트 구분 저장부(413)는 3명의 화자의 대화가 텍스트 형태로 변환된 경우, 각 화자가 발화한 구문에 대해 U1, U2, U3와 같은 식별자를 첫머리에 추가하여 저장할 수 있다. 또는 각 화자에 따라 텍스트 문장의 색상을 서로 상이하게 지정할 수도 있다. 즉 화자의 구분 방법은 특정하게 지정되지 않으며, 다양하게 설정될 수 있다.For example, when the conversation of three speakers is converted into a text form, the text classification storage unit 413 may add and store identifiers such as U1, U2, and U3 at the beginning for the phrase spoken by each speaker. Alternatively, the text sentences may be colored differently according to each speaker. That is, the method of distinguishing the speaker is not specifically specified and may be variously set.

또한 텍스트 구분 저장부(413)는 화자 구분부(600)가 추출된 화자의 음성 특징을 이용하여 화자를 인식할 수 있는 경우, 인식된 화자의 정보를 식별자로 함께 표시할 수도 있다.In addition, when the speaker separator 600 may recognize the speaker using the extracted speaker's voice feature, the text division storage unit 413 may also display the recognized speaker information as an identifier.

예를 들어, 텍스트 구분 저장부(413)는 화자가 사용자로 판별된 경우, "나"로 화자의 식별자를 지정할 수 있으며, 주소록 등에 등록된 다른 인식 가능한 화자인 경우, 등록된 식별자를 해당 구문에 추가하여 저장할 수 있다.For example, the text distinguishing storage unit 413 may designate the identifier of the speaker as "I" when the speaker is determined as the user, and, if it is another recognizable speaker registered in the address book or the like, the registered identifier may be assigned to the corresponding syntax. Can be added and stored.

텍스트 구분 저장부(413)가 화자별로 텍스트를 구분하여 저장하므로, 이후 사용자는 저장된 텍스트에서 각 문장의 화자를 용이하게 구분하여 인식할 수 있어, 대화의 내용을 더욱 용이하게 이해할 수 있다.Since the text division storage unit 413 classifies and stores the text for each speaker, the user can easily recognize the speaker of each sentence in the stored text and thus can easily understand the contents of the conversation.

경우에 따라서 텍스트 구분 저장부(413)는 자동 문법 검사를 수행하여, 명시적인 문법적 오류를 간략하게 수정할 수도 있다. 자동 문법 검사는 텍스트를 기반으로 하는 문서 편집기 등에서 이미 이용되고 있는 기술이다. 기존의 음성 인식 장치는 대부분 텍스트 기반의 인식 결과를 제공하지 않기 때문에, 적용하기에 용이하지 않았던 반면, 본 실시예에서는 텍스트 형태의 언어 인식 결과를 제공하므로, 이러한 자동 문법 검사 기능을 용이하게 적용할 수 있다.In some cases, the text division storage unit 413 may automatically correct an explicit grammatical error by performing an automatic grammar check. Automatic grammar checking is a technique already used in text-based text editors. Conventional speech recognition devices are not easy to apply because most speech recognition devices do not provide text-based recognition results. However, since the present embodiment provides text recognition results in the form of text, such automatic grammar checking function can be easily applied. Can be.

한편, 텍스트 편집부(420)는 텍스트 변환 저장부(410)에서 화자별로 구분되어 저장된 텍스트에 대해 사용자의 직접 수정 기능을 부가적으로 제공하기 위해 포함되는 구성 요소이다.On the other hand, the text editing unit 420 is a component included in the text conversion storage unit 410 to additionally provide a user's direct editing function for the text stored separately by the speaker.

언어 식별부(200)의 언어 인식부(220)가 인공 신경망으로 구현되는 경우, 미리 지정된 패턴 인식 기법에 따라 미리 학습되지만, 이는 범용적인 음성 인식을 위한 학습이다. 따라서 각 사용자와 주요 대화 상대들에 대해 추가적인 학습이 수행된다면, 더 나은 음성 인식 결과를 제공할 수 있다.When the language recognition unit 220 of the language identification unit 200 is implemented as an artificial neural network, the language recognition unit 220 is pre-learned according to a predetermined pattern recognition technique, but this is learning for general speech recognition. Thus, if additional learning is performed for each user and the main conversation partner, better speech recognition results can be provided.

이에 언어 식별부(200)의 언어 인식부(220)를 추가로 학습시켜, 사용자 개개인을 위한 최적화된 음성 인식 성능을 제공할 수 있도록, 텍스트 저장부(400)는 텍스트 편집부(420)를 더 포함할 수 있다.The text storage unit 400 further includes a text editing unit 420 to further learn the language recognition unit 220 of the language identification unit 200 to provide optimized speech recognition performance for each user. can do.

텍스트 편집부(420)는 텍스트 표시부(421), 텍스트 수정부(423) 및 오차 판별부(425)를 포함할 수 있다. 텍스트 표시부(421)는 텍스트 변환 저장부(410)에서 저장된 텍스트를 사용자에게 출력하여 표시한다. 텍스트 표시부(421)는 실시간으로 인식된 대화 내용을 디스플레이 모듈 등으로 출력하여 텍스트를 사용자에게 표시할 수 있으며, 상기한 바와 같이 화자별로 별도의 식별자 등으로 구분된 텍스트를 표시할 수 있다.The text editing unit 420 may include a text display unit 421, a text correction unit 423, and an error determination unit 425. The text display unit 421 outputs and displays the text stored in the text conversion storage unit 410 to the user. The text display unit 421 may output the conversation contents recognized in real time to the display module to display the text to the user. As described above, the text display unit 421 may display the text divided by a separate identifier for each speaker.

텍스트 수정부(423)는 표시된 텍스트를 확인한 사용자가 입력하는 명령에 응답하여 텍스트를 편집 및 수정한다. 텍스트 수정부(423)는 텍스트 구분 저장부(413)의 자동 문법 검사와 달리 사용자에 의한 텍스트 편집을 수행하여, 텍스트를 실제 사용자가 인지한 대화 내용으로 수정한다.The text correction unit 423 edits and corrects the text in response to a command input by a user who checks the displayed text. Unlike the automatic grammar check of the text division storage unit 413, the text correction unit 423 edits the text by the user, thereby modifying the text into the conversation contents recognized by the actual user.

오차 판별부(425)는 텍스트 수정부(423)에서 수정된 텍스트와 텍스트 변환부(411)에서 변환되어 저장된 텍스트 사이의 오차를 분석하고, 분석된 오차를 언어 인식부(220)로 전달하여, 언어 인식부(220)의 음성 인식 성능을 개선한다. 이때, 오차 판별부(425)에서 판별된 오차는 딥 러닝과 같은 패턴 인식 기법에 따라 언어 인식부(220)의 인공 신경망에 역순으로 역전파됨으로써, 패턴 인식 성능을 개선할 수 있다.The error determining unit 425 analyzes an error between the text modified by the text correction unit 423 and the text converted and stored by the text converter 411, and transmits the analyzed error to the language recognition unit 220. The speech recognition performance of the language recognizer 220 is improved. In this case, the error determined by the error determiner 425 may be reverse propagated in the reverse order to the artificial neural network of the language recognizer 220 according to a pattern recognition technique such as deep learning, thereby improving pattern recognition performance.

도3 은 본 발명의 일 실시예에 따른 대화 자동 저장 방법의 개략적 구조를 나타낸다.3 shows a schematic structure of a method for automatically storing conversations according to an embodiment of the present invention.

도1 및 도2 를 참조하여, 본 실시예에 따른 대화 자동 저장 방법을 설명하면, 우선 오디오 신호를 획득한다(S110). 여기서 오디오 신호는 마이크 등의 센서 또는 통신 모듈로부터 획득할 수 있으며, 기설정된 주기 단위로 획득하도록 설정될 수 있다. 그리고 획득된 오디오 신호에 대해, 기설정된 형태로 변환할 수 있으며, 일 예로, 2차원 그래프 형태의 주파수 스펙트럼 그래프로 변환하여 전달 할 수 있다.1 and 2, a method of automatically storing a conversation according to the present embodiment will be described. First, an audio signal is obtained (S110). The audio signal may be obtained from a sensor such as a microphone or a communication module, and may be set to be acquired at a predetermined cycle unit. The obtained audio signal may be converted into a predetermined form, and, for example, may be converted into a frequency spectrum graph in the form of a two-dimensional graph and transmitted.

그리고 획득되는 오디오 신호의 세기가 기설정된 기준 세기 이상인지 판별한다(S120). 만일 오디오 신호의 세기가 기준 세기 미만이면, 오디오 신호의 획득을 종료한다(S130).In operation S120, it is determined whether the strength of the obtained audio signal is greater than or equal to a predetermined reference intensity. If the intensity of the audio signal is less than the reference intensity, the acquisition of the audio signal is terminated (S130).

반면, 오디오 신호의 세기가 기준 세기 이상이면, 획득된 오디오 신호의 패턴을 분석하여, 음성 신호 패턴이 포함되어 있는지 판별한다(S140). 만일 음성 신호 패턴이 포함되지 않은 것으로 판단되면, 오디오 신호의 획득을 종료한다(S130).On the other hand, if the intensity of the audio signal is greater than the reference intensity, by analyzing the pattern of the obtained audio signal, it is determined whether the speech signal pattern is included (S140). If it is determined that the voice signal pattern is not included, the acquisition of the audio signal is terminated (S130).

그러나 음성 신호 패턴이 포함된 것으로 판단되면, 오디오 신호를 필터링하여 노이즈를 제거한다(S150). 그리고 노이즈가 제거된 오디오 신호에 대해, 언어 인식(또는 음성 인식)을 수행한다(S160).However, if it is determined that the voice signal pattern is included, the audio signal is filtered to remove noise (S150). Then, language recognition (or speech recognition) is performed on the audio signal from which the noise is removed (S160).

언어 인식의 결과로서, 언어 인식률을 분석하여 언어 인식률이 기설정된 기준 인식률 이상인지 판별한다(S170). 만일 언어 인식률이 기준 인식률 미만이면, 무의미한 오디오 신호가 입력된 것으로 판단하여, 오디오 신호 획득을 종료한다(S130). 그러나 언어 인식률이 기준 인식률 이상이면, 인식된 언어 정보를 텍스트 형태로 저장한다(S180). 그리고 텍스트 저장 형태로 저장시에 인식된 음성 신호를 함께 임시 저장할 수 있다. 이때 임시 저장되는 음성 신호는 저장된 텍스트의 대응하는 각 구문에 매칭되어 저장될 수 있다. 즉 오디오 신호에서 노이즈 신호 및 인식 불가능한 음성 신호 구간을 제외하고, 음성 인식이 가능한 구간의 음성 신호만을 저장하여 저장 용량을 저감하도록 할 수 있다. 또한 음성 신호는 텍스트의 대응하는 구문에 링크되어 저장되어 특정 구문이 선택되는 경우, 대응하는 음성 신호가 재생되도록 설정될 수 있다.As a result of language recognition, the language recognition rate is analyzed to determine whether the language recognition rate is equal to or greater than a preset reference recognition rate (S170). If the language recognition rate is less than the reference recognition rate, it is determined that a meaningless audio signal is input, and the acquisition of the audio signal is terminated (S130). However, if the language recognition rate is greater than or equal to the reference recognition rate, the recognized language information is stored in text form (S180). In addition, it is possible to temporarily store the voice signal recognized at the time of storage in the form of text storage. In this case, the temporarily stored voice signal may be matched with each corresponding phrase of the stored text and stored. That is, except for a noise signal and an unrecognizable speech signal section, the audio signal may store only a speech signal in a section in which speech recognition is possible to reduce the storage capacity. In addition, the voice signal may be linked to and stored in a corresponding phrase of the text so that when a specific phrase is selected, the corresponding voice signal may be set to be reproduced.

한편 음성 신호가 임시 저장되면, 임시 저장된 음성 신호를 분석하여, 화자를 구분하고 구분된 화자에 대한 화자 구분자를 텍스트 저장부(400)로 전송한다(S190). 이에 텍스트 저장부(400)는 화자 구분자에 따라 저장된 텍스트의 각 구문에 화자 구분자를 추가함으로써, 사용자가 텍스트로 저장된 대화의 내용을 용이하게 인식할 수 있도록 한다.On the other hand, if the voice signal is temporarily stored, and analyzes the temporarily stored voice signal, and distinguishes the speaker and transmits the speaker delimiter for the divided speaker to the text storage (400) (S190). The text storage unit 400 adds the speaker delimiter to each phrase of the stored text according to the speaker delimiter, so that the user can easily recognize the contents of the conversation stored as the text.

또한 화자 구분 시, 화자 인식이 가능한 경우에는 인식된 화자에 대한 식별자를 텍스트 저장부(400)로 전송하여 화자 구분자가 아닌 식별자가 텍스트에 추가되도록 할 수 있다.In addition, when speaker recognition is possible, when the speaker recognition is possible, the identifier for the recognized speaker may be transmitted to the text storage unit 400 so that an identifier other than the speaker separator may be added to the text.

그리고 화자 구분 및 화자 인식이 되면, 임시 저장된 음성 신호의 저장 여부 설정을 판별한다(S200). 만일 음성 신호를 저장하는 것으로 설정되어 있으면, 임시 저장된 음성 신호 그대로 저장한다(S210). 그러나 음성 신호를 저장하지 않는 것으로 설정되어 있으면, 임시 저장된 음성 신호를 삭제한다(S220).When the speaker is divided and the speaker is recognized, it is determined whether to store the temporarily stored voice signal (S200). If the voice signal is set to be stored, the voice signal is temporarily stored as it is (S210). However, if the voice signal is set not to store, the voice signal is temporarily stored (S220).

그리고 다시 기설정된 주기 이후에 오디오 신호를 획득한다(S110).In operation S110, an audio signal is acquired after a predetermined period.

본 실시예에서는 인식된 대화가 텍스트 형태로 저장되므로, 음성 신호는 저장할 필요는 없다. 그러나 사용자가 음성 신호를 저장하고자 하는 경우가 발생할 수 있을 뿐만 아니라, 이후 언어 인식 성능의 향상을 위해서 오디오 신호가 필요할 수도 있다. 이에 본 실시예에 따른 대화 자동 저장 방법은 미리 지정된 설정값이나 사용자 명령에 응답하여 음성 신호를 텍스트의 각 구문에 매칭하여 저장할 수 있다. In the present embodiment, since the recognized conversation is stored in text form, it is not necessary to store the voice signal. However, not only a case where a user wants to store a voice signal may occur, but also an audio signal may be required to improve language recognition performance. Accordingly, in the automatic conversation storing method according to the present embodiment, a voice signal may be matched with each phrase of text in response to a predetermined setting value or a user command.

결과적으로 본 발명의 실시예에 따른 대화 자동 저장 장치 및 방법은 획득되는 오디오 신호로부터 언어의 형태로 인식되는 대화 내용을 텍스트 형태로 저장함으로써, 저 용량으로 대화 내용을 저장할 수 있도록 한다. 대화 내용이 텍스트로 저장되므로, 사용자는 저장된 텍스트로부터 대화 내용을 시각적으로 빠르고 용이하게 확인할 수 있다. 또한 오디오 신호 중 음성 신호를 함께 저장할 수 있으며, 음성 신호가 함께 저장되는 경우에 텍스트에 대응하는 음성 신호만을 저장함으로써 저 용량으로 음성 신호를 저장할 수 있도록 한다. 뿐만 아니라 텍스트와 음성 신호를 매칭하여 제공함으로써, 사용자의 필요에 따라 즉각 음성 신호의 해당 구간을 재생할 수 있도록 하여 사용자의 편의성을 극대화 할 수 있다. As a result, the automatic conversation storage apparatus and method according to the embodiment of the present invention enables the conversation contents to be stored at a low capacity by storing the conversation contents recognized in the form of language from the obtained audio signal in text form. Since the conversation is stored as text, the user can visually and quickly confirm the conversation from the stored text. In addition, the audio signal can be stored together among the audio signals, and when the voice signal is stored together, only the voice signal corresponding to the text can be stored so that the voice signal can be stored with low capacity. In addition, by providing text and voice signals by matching, it is possible to maximize the user's convenience by allowing the user to immediately play the corresponding section of the voice signal.

그리고 텍스트의 문장을 화자별로 구별하여, 화자 구분자를 추가함으로써, 저장된 텍스트에 대한 이해력을 크게 향상 시킬 수 있으며, 텍스트를 사용자가 수정할 수 있도록 하여 음성 인식 성능을 향상시킬 수 있으며, 텍스트와 오디오 신호가 함께 저장됨으로써, 향후, 음성 인식을 위한 학습 데이터를 용이하게 획득할 수 있도록 한다.And by distinguishing the sentences of the text by the speaker, by adding the speaker separator, the understanding of the stored text can be greatly improved, and the text can be modified by the user to improve the speech recognition performance. By being stored together, it is possible to easily acquire the training data for speech recognition in the future.

도4 는 본 실시예에 따른 대화 자동 저장 장치 및 방법을 이용하여 대화가 자동 저장되는 과정의 예시를 나타낸다.4 illustrates an example of a process in which a conversation is automatically stored by using the apparatus and method for automatically storing conversations according to the present embodiment.

도4 는 (a)에 도시된 바와 같이 한 명의 사용자(U)와 두 명의 대화 상대(O1, O2)가 대화하는 경우에 본 발명의 대화 자동 저장 장치(TAR)가 대화를 자동 저장하는 실시예를 나타낸다.4 illustrates an embodiment in which a conversation automatic storage device (TAR) of the present invention automatically stores a conversation when one user U and two conversation partners (O1, O2) have a conversation as shown in (a). Indicates.

도4 의 (a)에서 대화 자동 저장 장치(TAR)는 한 명의 사용자(U)와 두 명의 대화 상대(O1, O2)의 발화를 모두 감지하여 오디오 신호를 (b)와 같이 획득한다. 그리고 획득된 오디오 신호를 (c)와 같이 주파수 스펙트럼으로 변환할 수 있다. 대화 자동 저장 장치(TAR)는 주파수 스펙트럼으로 변환된 오디오 신호에 대해 언어 인식을 수행하여, (d)와 같이 텍스트 형태로 저장한다.In FIG. 4A, the conversation automatic storage device TAR detects all the utterances of one user U and two conversation partners O1 and O2 to obtain an audio signal as shown in (b). The obtained audio signal may be converted into a frequency spectrum as shown in (c). The automatic conversation storage apparatus (TAR) performs language recognition on the audio signal converted into the frequency spectrum and stores the text in a text form as shown in (d).

이때, 언어 인식은 오디오 신호로부터 노이즈를 제거하여 언어 인식을 수행할 수 있다. 그리고 음성 신호를 임시 저장하고, 임시 저장된 음성 신호를 분석함으로써 각 화자를 구분 또는 인식하고, 구분 또는 인식된 화자의 구분자를 언어 인식된 텍스트의 각 구문에 추가하여 제공한다. 여기서 대화 자동 저장 장치(TAR)는 사용자(U)에 대해서는 화자 인식이 가능한 것으로 가정하여, 화자로서 사용자(U)의 음성에 대응하는 텍스트에 "나"라는 식별자를 지정하여 표시하였다. 반면, 다른 화자의 경우, 각 음성에 대한 화자를 구분할 수는 있으나 인식할 수 없는 상태이므로, O1, O2와 같은 구분자로 구분하여 표시하였다.In this case, language recognition may perform language recognition by removing noise from an audio signal. The speech signal is temporarily stored, and each speaker is distinguished or recognized by analyzing the temporarily stored speech signal, and a separator of the distinguished or recognized speaker is added to each phrase of the language-recognized text. Here, the conversation automatic storage device (TAR) assumes that speaker U can be recognized by the user U, and designates an identifier of "I" in text corresponding to the voice of the user U as a speaker. On the other hand, in the case of other speakers, since the speaker for each voice can be distinguished but not recognized, it is divided and displayed as a separator such as O1 and O2.

그러나 이러한 단순 구분으로도 발화의 주체를 사용자가 서로 구분하여 대화 내용을 인식할 수 있게 됨에 따라 대화 내용을 매우 용이하게 파악할 수 있다.However, even with such a simple division, the subjects of the utterance can be distinguished from each other so that the conversation contents can be easily recognized.

본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.The method according to the invention can be implemented as a computer program stored in a medium for execution in a computer. The computer readable media herein can be any available media that can be accessed by a computer and can also include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, and includes ROM (readable) Dedicated memory), RAM (random access memory), CD (compact disk) -ROM, DVD (digital video disk) -ROM, magnetic tape, floppy disk, optical data storage, and the like.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.Although the present invention has been described with reference to the embodiments shown in the drawings, this is merely exemplary, and it will be understood by those skilled in the art that various modifications and equivalent other embodiments are possible.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

100: 오디오 신호 획득부 200: 언어 식별부
210: 음성 추출부 220: 언어 인식부
300: 언어 인식률 판별부 400: 텍스트 저장부
500: 음성 저장부 600: 화자 구분부
410: 텍스트 변환 저장부 411: 텍스트 변환부
413: 텍스트 구분 저장부 420: 텍스트 편집부
421: 텍스트 표시부 423: 텍스트 수정부
425: 오차 판별부
100: audio signal acquisition unit 200: language identification unit
210: speech extraction unit 220: language recognition unit
300: language recognition rate determination unit 400: text storage unit
500: voice storage unit 600: speaker division unit
410: text conversion storage unit 411: text conversion unit
413: text division storage unit 420: text editing unit
421: Text display unit 423: Text correction unit
425: error determination unit

Claims (19)

오디오 신호를 획득하는 오디오 신호 획득부;
상기 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 언어 식별부;
기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 언어 인식률 판별부; 및
상기 언어 인식률 판별부의 제어에 따라 상기 언어 식별부에서 인식된 언어 정보를 텍스트 형태로 저장하는 텍스트 저장부; 를 포함하는 대화 자동 저장 장치.
An audio signal obtaining unit obtaining an audio signal;
A language identifier for performing language recognition from the audio signal in a predetermined manner to obtain language information;
A language recognition rate determination unit for analyzing a language recognition rate of the language identification unit in a predetermined manner, and determining whether to store the recognized language by comparing the analyzed language recognition rate with a preset reference recognition rate; And
A text storage unit storing language information recognized by the language identification unit in a text form under the control of the language recognition rate determination unit; Conversation auto storage device comprising a.
제1 항에 있어서, 상기 오디오 신호 획득부는
미리 지정된 주기 단위로 상기 오디오 신호를 획득하고, 상기 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 대화 자동 저장 장치.
The method of claim 1, wherein the audio signal acquisition unit
Acquiring the audio signal in units of a predetermined period, and if the intensity of the audio signal is less than a predetermined reference intensity or if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, the acquisition of the audio signal is stopped. Automatic conversation storage that acquires audio signals again next cycle.
제2 항에 있어서, 상기 오디오 신호 획득부는
상기 오디오 신호를 주파수 스펙트럼 형태로 변환하여 상기 언어 식별부로 전달하고, 상기 언어 인식률 판별부가 상기 언어 인식률이 기설정된 기준 인식률 미만인 것으로 판단하면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 대화 자동 저장 장치.
The method of claim 2, wherein the audio signal acquisition unit
When the audio signal is converted into a frequency spectrum form and transmitted to the language identification unit, and the language recognition rate determining unit determines that the language recognition rate is less than a predetermined reference recognition rate, the acquisition of the audio signal is stopped and the audio signal is supplied again in the next cycle. Acquire conversation auto store.
제1 항에 있어서, 상기 언어 식별부는
상기 오디오 신호에서 노이즈 신호를 제거하고, 노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득하는 대화 자동 저장 장치.
The method of claim 1, wherein the language identification unit
And automatically removing the noise signal from the audio signal and performing language recognition on the audio signal from which the noise signal has been removed.
제1 항에 있어서, 상기 언어 식별부는
기지정된 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망으로 구현되는 대화 자동 저장 장치.
The method of claim 1, wherein the language identification unit
Automatic dialogue storage device implemented with at least one artificial neural network that has been learned in advance according to a predetermined pattern recognition technique.
제1 항에 있어서, 상기 언어 식별부는
상기 언어 인식을 수행하여 텍스트 형태의 상기 언어 정보를 획득하는 대화 자동 저장 장치.
The method of claim 1, wherein the language identification unit
And automatically acquire the language information in the form of text by performing the language recognition.
제1 항에 있어서, 상기 텍스트 저장부는
상기 언어 정보를 인가받아 텍스트로 변환하여 저장하는 대화 자동 저장 장치.
The method of claim 1, wherein the text storage unit
And automatically converts the language information into text and stores the converted text.
제1 항에 있어서, 상기 대화 자동 저장 장치는
상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 음성 신호 저장부; 및
임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하고, 구분된 화자에 대한 화자 구분자를 상기 텍스트 저장부로 전달하며, 구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 상기 텍스트 저장부로 전달하는 화자 구분부; 를 더 포함하는 대화 자동 저장 장치.
The method of claim 1, wherein the automatic conversation storage device
A voice signal storage unit for receiving and temporarily storing a voice signal corresponding to the recognized language information; And
Analyzing the temporarily stored voice signal, distinguishes the speaker of the voice signal, and delivers a speaker separator for the divided speaker to the text storage unit, and if there is a recognizer among the divided speakers, the identifier for the recognized speaker A speaker separator for transmitting a to the text storage; Conversation automatic storage device further including.
제8 항에 있어서, 상기 텍스트 저장부는
상기 화자 구분자를 인가받아 상기 텍스트의 각 문장에 대응하는 화자 구분자를 추가로 삽입하고, 화자 인식 정보가 존재하는 경우, 상기 화자별로 구분된 텍스트의 각 문장에 상기 식별자를 삽입하는 대화 자동 저장 장치.
The method of claim 8, wherein the text storage unit
And a speaker delimiter corresponding to each sentence of the text in response to receiving the speaker delimiter and inserting the identifier into each sentence of the text divided by the speaker, if speaker recognition information is present.
제8 항에 있어서, 상기 언어 인식률 판별부는
사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하고,
상기 음성 신호 저장부는
상기 언어 인식률 판별부의 제어에 따라 임시 저장된 음성 신호를 계속 저장하거나 삭제하는 대화 자동 저장 장치.
The method of claim 8, wherein the language recognition rate determination unit
Determine whether to store the voice signal according to user commands or predetermined settings,
The voice signal storage unit
And automatically storing or deleting the temporarily stored voice signal under the control of the language recognition rate determination unit.
제9 항에 있어서, 상기 텍스트 저장부는
상기 음성 신호 저장부에 음성 신호가 저장되어 있으면, 저장된 텍스트의 각 구문에 대응하는 음성 신호를 매칭하여 링크하여 저장하고,
링크된 텍스트의 구문이 선택되면, 링크된 음성 신호를 재생하는 대화 자동 저장 장치.
The method of claim 9, wherein the text storage unit
If a voice signal is stored in the voice signal storage unit, a voice signal corresponding to each phrase of the stored text is matched and linked, and stored.
Automatic conversation storage that plays a linked speech signal when a phrase of the linked text is selected.
제1 항에 있어서, 상기 텍스트 저장부는
사용자가 저장된 텍스트를 확인할 수 있도록 표시하고, 표시된 텍스트에 대해 수정 명령을 인가하면, 상기 텍스트를 수정하며, 수정된 오차를 상기 언어 식별부로 전달하는 텍스트 편집부; 를 더 포함하는 대화 자동 저장 장치.
The method of claim 1, wherein the text storage unit
A text editing unit for displaying the user to check the stored text, applying a correction command to the displayed text, correcting the text, and transmitting the corrected error to the language identification unit; Conversation automatic storage device further including.
오디오 신호를 획득하는 단계;
획득된 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 단계;
기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 단계; 및
언어 인식률이 기준 인식률 이상이면, 인식된 상기 언어 정보를 텍스트 형태로 저장하는 단계; 를 포함하는 대화 자동 저장 방법.
Obtaining an audio signal;
Obtaining language information by performing language recognition from the obtained audio signal in a predetermined manner;
Analyzing a language recognition rate of the language identification unit in a predetermined manner, and comparing the analyzed language recognition rate with a predetermined reference recognition rate to determine whether to store the recognized language; And
If the language recognition rate is greater than or equal to the reference recognition rate, storing the recognized language information in text form; Conversation auto save method comprising a.
제13 항에 있어서, 상기 오디오 신호를 획득하는 단계는
미리 지정된 시간 주기에 상기 오디오 신호를 획득하는 단계;
상기 오디오 신호의 세기가 기설정된 기준 세기 미만이면, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하는 단계; 및
다음 주기에 오디오 신호를 다시 획득하는 단계; 를 포함하는 대화 자동 저장 방법.
The method of claim 13, wherein the acquiring of the audio signal
Acquiring the audio signal at a predetermined time period;
If the intensity of the audio signal is less than a preset reference intensity, if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, stopping the acquisition of the audio signal; And
Reacquiring the audio signal in the next period; Conversation auto save method comprising a.
제14 항에 있어서, 상기 오디오 신호를 획득하는 단계는
상기 오디오 신호를 주파수 스펙트럼 형태로 변환하는 단계;
상기 언어 인식률이 기설정된 기준 인식률 미만인 것으로 판단되면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 단계; 를 더 포함하는 대화 자동 저장 방법.
15. The method of claim 14, wherein acquiring the audio signal
Converting the audio signal into a frequency spectrum form;
If it is determined that the language recognition rate is less than a predetermined reference recognition rate, stopping the acquisition of the audio signal and acquiring the audio signal again in the next period; Conversation autosave method comprising more.
제13 항에 있어서, 상기 언어 정보를 획득하는 단계는
상기 오디오 신호에서 노이즈 신호를 제거하는 단계; 및
노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득하는 단계; 를 포함하는 대화 자동 저장 방법.
The method of claim 13, wherein obtaining the language information comprises:
Removing a noise signal from the audio signal; And
Obtaining language information by performing language recognition on the audio signal from which the noise signal is removed; Conversation auto save method comprising a.
제13 항에 있어서, 상기 대화 자동 저장 방법은
상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 단계;
임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하여 화자 구분자를 설정하는 단계; 및
구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 획득하는 단계; 를 더 포함하는 대화 자동 저장 방법.
The method of claim 13, wherein the conversation auto-save method is
Receiving and temporarily storing a voice signal corresponding to the recognized language information;
Analyzing the temporarily stored voice signal and setting a speaker identifier by dividing the speaker of the voice signal; And
Acquiring an identifier for the recognized speaker if there is a recognizable speaker among the divided speakers; Conversation autosave method comprising more.
제17 항에 있어서, 상기 텍스트 형태로 저장하는 단계는
상기 언어 정보를 텍스트로 저장하는 단계;
획득된 화자 구분자 및 식별자가 존재하면, 상기 텍스트의 각 문장에 대응하는 화자 구분자 또는 식별자를 삽입하는 단계; 를 포함하는 대화 자동 저장 방법.
The method of claim 17, wherein the storing in the text form
Storing the language information as text;
Inserting a speaker delimiter or identifier corresponding to each sentence of the text, if the obtained speaker delimiter and identifier exist; Conversation auto save method comprising a.
제17 항에 있어서, 상기 대화 자동 저장 방법은
사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하는 단계;
상기 음성 신호를 저장하는 것으로 판별되면, 임시 저장된 음성 신호를 계속 저장하는 단계; 및
상기 음성 신호를 저장하지 않는 것으로 판별되면, 임시 저장된 음성 신호를 삭제하는 단계; 를 더 포함하는 대화 자동 저장 방법.
18. The method of claim 17, wherein the method for automatically saving a conversation
Determining whether to store a voice signal according to a user command or a predetermined setting value;
If it is determined that the voice signal is stored, continuing to store the temporarily stored voice signal; And
If it is determined that the voice signal is not stored, deleting the temporarily stored voice signal; Conversation autosave method comprising more.
KR1020180070668A 2018-06-20 2018-06-20 Talk auto-recording apparatus method KR20190143116A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180070668A KR20190143116A (en) 2018-06-20 2018-06-20 Talk auto-recording apparatus method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180070668A KR20190143116A (en) 2018-06-20 2018-06-20 Talk auto-recording apparatus method

Publications (1)

Publication Number Publication Date
KR20190143116A true KR20190143116A (en) 2019-12-30

Family

ID=69102927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180070668A KR20190143116A (en) 2018-06-20 2018-06-20 Talk auto-recording apparatus method

Country Status (1)

Country Link
KR (1) KR20190143116A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102312993B1 (en) * 2020-06-12 2021-10-13 주식회사 리턴제로 Method and apparatus for implementing interactive message using artificial neural network
WO2021256614A1 (en) * 2020-06-16 2021-12-23 주식회사 마인즈랩 Method for generating speaker-marked text
KR102462219B1 (en) * 2021-06-15 2022-11-04 (주)미소정보기술 Method of Automatically Generating Meeting Minutes Using Speaker Diarization Technology

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102312993B1 (en) * 2020-06-12 2021-10-13 주식회사 리턴제로 Method and apparatus for implementing interactive message using artificial neural network
WO2021256614A1 (en) * 2020-06-16 2021-12-23 주식회사 마인즈랩 Method for generating speaker-marked text
KR20210155866A (en) * 2020-06-16 2021-12-24 주식회사 마인즈랩 Method for generating speaker-labeled text
KR102462219B1 (en) * 2021-06-15 2022-11-04 (주)미소정보기술 Method of Automatically Generating Meeting Minutes Using Speaker Diarization Technology

Similar Documents

Publication Publication Date Title
JP6633008B2 (en) Voice interaction device and voice interaction method
CN111128223B (en) Text information-based auxiliary speaker separation method and related device
JP4600828B2 (en) Document association apparatus and document association method
KR20170030297A (en) System, Apparatus and Method For Processing Natural Language, and Computer Readable Recording Medium
KR102298457B1 (en) Image Displaying Apparatus, Driving Method of Image Displaying Apparatus, and Computer Readable Recording Medium
KR20170028628A (en) Voice Recognition Apparatus, Driving Method of Voice Recognition Apparatus, and Computer Readable Recording Medium
CN108242238B (en) Audio file generation method and device and terminal equipment
JP2007519987A (en) Integrated analysis system and method for internal and external audiovisual data
KR20190143116A (en) Talk auto-recording apparatus method
US20090271196A1 (en) Classifying portions of a signal representing speech
US20210232776A1 (en) Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor
JP5099211B2 (en) Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance
US11238869B2 (en) System and method for reconstructing metadata from audio outputs
CN106373598A (en) Audio replay control method and apparatus
JP2012181358A (en) Text display time determination device, text display system, method, and program
KR102020773B1 (en) Multimedia Speech Recognition automatic evaluation system based using TTS
CN113744742A (en) Role identification method, device and system in conversation scene
KR102666826B1 (en) Speaker classification system using STT
EP2913822B1 (en) Speaker recognition
CN113076747A (en) Voice recognition recording method based on role recognition
KR101933822B1 (en) Intelligent speaker based on face reconition, method for providing active communication using the speaker, and computer readable medium for performing the method
JP5713782B2 (en) Information processing apparatus, information processing method, and program
KR102408455B1 (en) Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor
KR20220121456A (en) Speaker classification system that categorizes and stores conversation text
JP2016186646A (en) Voice translation apparatus, voice translation method and voice translation program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application