KR20190143116A - Talk auto-recording apparatus method - Google Patents
Talk auto-recording apparatus method Download PDFInfo
- Publication number
- KR20190143116A KR20190143116A KR1020180070668A KR20180070668A KR20190143116A KR 20190143116 A KR20190143116 A KR 20190143116A KR 1020180070668 A KR1020180070668 A KR 1020180070668A KR 20180070668 A KR20180070668 A KR 20180070668A KR 20190143116 A KR20190143116 A KR 20190143116A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- text
- audio signal
- speaker
- conversation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 135
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000003909 pattern recognition Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 대화 저장 장치 및 방법에 관한 것으로, 특히 평상시 대화를 자동 저장 장치 및 방법에 관한 것이다.The present invention relates to a conversation storage device and method, and more particularly to an automatic storage device and method for normal conversation.
스마트 폰, 노트북 등과 같은 다양한 모바일 기기의 보급이 확대됨과 더불어 모바일 기기의 성능이 급속하게 향상됨에 따라 모바일 기기의 기능을 다양한 분야에 활용하고자 하는 시도가 증가하고 있다.As the spread of various mobile devices such as smart phones and laptops has been expanded, the performance of mobile devices has been rapidly improved, and attempts to utilize the functions of mobile devices in various fields are increasing.
그리고 모바일 기기의 활용 용도 중 하나로 음성 녹음(Voice Recording)이 있다. 음성 녹음은 마이크 센서를 통해 입력되는 신호를 저장하며, 학생들의 강의 녹음, 기자들의 취재 내용 녹음, 전화의 통화 내용 녹음, 각종 텔레마케팅의 내역 녹음 등과 같은 다양한 분야에서 이용되고 있으며, 그 적용 범위가 더욱 확대되고 있다.One of the applications of mobile devices is voice recording. Voice recording stores signals input through the microphone sensor and is used in various fields such as student lecture recording, reporter recording, telephone call recording, and telemarketing history recording. It is expanding further.
그러나 음성 녹음은 마이크 센서 등을 통해 입력되는 오디오 신호를 단순 저장할 뿐으로, 내용적으로 유의미한 오디오 신호를 구분하지 못하여 무의미한 오디오 신호도 모두 저장하므로, 저장되는 신호의 데이터 량이 크게 증가하게 된다.However, the voice recording merely stores the audio signal input through the microphone sensor and the like, and does not distinguish the meaningful audio signal in content, thereby storing all the meaningless audio signals, thereby greatly increasing the amount of data stored.
이러한 데이터 량의 증가는 데이터 저장 용량의 한계를 유발하므로, 기존에는 상시 녹음 방식이 아니라 사용자 명령에 응답하여 녹음을 시작 및 종료하는 수동 방식에 의존하고 있다. 따라서 사용자가 대화 중과 같은 일상 생활을 영위하는 동안 중요한 내용이 발화되더라도, 사용자 명령을 인가하지 못하여 녹음을 수행하지 못하고 지나치는 경우가 빈번하게 발생하고 있다. 즉 음성 녹음 기능을 효율적으로 이용하지 못하고 있다.Since the increase of the data amount causes a limitation of the data storage capacity, the conventional method relies on the manual method of starting and ending the recording in response to a user command, rather than the continuous recording method. Therefore, even if important contents are uttered while the user is conducting daily life such as during a conversation, the user cannot approve the user's command and often fails to record. That is, the voice recording function is not used efficiently.
또한 음성 녹음은 저장된 음성의 내용을 직관적으로 확인하기 어렵다는 문제가 있다. 즉 음성을 파일 형태로 저장하고 일정 시간이 지난 이후에는, 음성이 저장된 다수의 파일 중 어떤 파일에 어떠한 내용이 저장되어 있는지 사용자가 기억하지 못하게 되어, 이후 원하는 내용을 찾기 위해서는 다수의 음성 파일을 다시 전면 재검토해야 하는 문제가 발생한다.In addition, voice recording has a problem that it is difficult to intuitively check the contents of the stored voice. In other words, after a certain amount of time is saved after the voice is stored in a file format, the user cannot remember which content is stored in which of the plurality of files in which the voice is stored. A problem arises that requires a full review.
뿐만 아니라, 특정 음성 파일에 원하는 내용이 저장되어 있는 것을 알고 있다 하더라도, 시각이 아닌 청각적 음성 정보가 시간의 흐름에 따라 저장된 음성 파일에서는 해당 내용이 어떤 시간 위치에 존재하는지 알 수 없어서 음성 파일의 전체 내용을 검토해야 하는 문제가 있다.In addition, even if you know that the desired content is stored in a particular voice file, the audio file is stored in the voice file. There is a problem that needs to be reviewed.
일 예로 학생들이 3시간의 강의 내용 중 특정 내용에 대해 확인하고자 하는 경우에, 최악의 경우 3시간의 강의 내용을 모두 재청취해야 하는 경우가 발생할 수 있다. 이는 사용자의 시간을 낭비하게 하는 요소가 될 뿐만 아니라, 사용자의 모바일 기기에 이미 포함되어 있는 음성 녹음 기능을 활용하지 않도록 하는 장애 요소가 되고 있다.For example, if a student wants to check a specific content of a 3-hour lecture, the worst case may be to re-listen to the 3-hour lecture. Not only is this a waste of time for the user, it is also an obstacle to not using the voice recording function already included in the user's mobile device.
본 발명의 목적은 평상시 대화 내용을 적은 데이터 용량으로 자동으로 저장할 수 있는 대화 자동 저장 장치 및 방법을 제공하는데 있다.SUMMARY OF THE INVENTION An object of the present invention is to provide an automatic conversation storage device and a method for automatically storing conversation contents in a small data capacity.
본 발명의 다른 목적은 음성 인식을 통해 대화 여부를 판별하고, 판별된 대화를 텍스트 형태로 저장하는 대화 자동 저장 장치 및 방법을 제공하는데 있다.Another object of the present invention is to provide a method and apparatus for automatically saving a conversation, which determines whether a conversation is performed through voice recognition and stores the determined conversation in a text form.
본 발명의 또 다른 목적은 입력되는 오디오 신호를 화자별로 구분하고, 구분된 화자별 대화를 구분하여 자동 저장하는 대화 자동 저장 장치 및 방법을 제공하는데 있다.It is still another object of the present invention to provide an automatic dialogue storage device and method for automatically classifying an input audio signal for each speaker and automatically storing the divided dialogue for each speaker.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 대화 자동 저장 장치는 오디오 신호를 획득하는 오디오 신호 획득부; 상기 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 언어 식별부; 기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 언어 인식률 판별부; 및 상기 언어 인식률 판별부의 제어에 따라 상기 언어 식별부에서 인식된 언어 정보를 텍스트 형태로 저장하는 텍스트 저장부; 를 포함한다.Automatic conversation storage device according to an embodiment of the present invention for achieving the above object is an audio signal acquisition unit for obtaining an audio signal; A language identifier for performing language recognition from the audio signal in a predetermined manner to obtain language information; A language recognition rate determination unit for analyzing a language recognition rate of the language identification unit in a predetermined manner, and determining whether to store the recognized language by comparing the analyzed language recognition rate with a preset reference recognition rate; And a text storage unit storing language information recognized by the language identification unit in a text form under the control of the language recognition rate determination unit. It includes.
상기 오디오 신호 획득부는 미리 지정된 주기 단위로 상기 오디오 신호를 획득하고, 상기 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득할 수 있다.The audio signal acquisition unit obtains the audio signal in a predetermined period unit, and if the intensity of the audio signal is less than a predetermined reference intensity or if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, the audio signal The acquisition of can be stopped and the audio signal can be acquired again in the next period.
상기 언어 식별부는 상기 오디오 신호에서 노이즈 신호를 제거하고, 노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득할 수 있다.The language identifier may remove the noise signal from the audio signal, and perform language recognition on the audio signal from which the noise signal is removed to obtain the language information.
상기 언어 식별부는 기지정된 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망으로 구현될 수 있다.The language identifier may be embodied as at least one artificial neural network learned in advance according to a predetermined pattern recognition technique.
상기 언어 식별부는 상기 언어 인식을 수행하여 텍스트 형태의 상기 언어 정보를 획득할 수 있다.The language identifier may acquire the language information in the form of text by performing the language recognition.
상기 텍스트 저장부는 상기 언어 정보를 인가받아 텍스트로 변환하여 저장할 수 있다.The text storage unit may receive the language information and convert the text information into text.
상기 대화 자동 저장 장치는 상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 음성 신호 저장부; 및 임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하고, 구분된 화자에 대한 화자 구분자를 상기 텍스트 저장부로 전달하며, 구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 상기 텍스트 저장부로 전달하는 화자 구분부; 를 더 포함할 수 있다.The automatic conversation storage device may include: a voice signal storage unit configured to temporarily receive and receive a voice signal corresponding to the recognized language information; And analyzing the temporarily stored voice signal, classifying the speaker of the voice signal, transferring a speaker separator for the divided speaker to the text storage unit, and if there is a recognizable speaker among the divided speakers, A speaker separator for transmitting an identifier to the text storage unit; It may further include.
상기 텍스트 저장부는 상기 화자 구분자를 인가받아 상기 텍스트의 각 문장에 대응하는 화자 구분자를 추가로 삽입하고, 화자 인식 정보가 존재하는 경우, 상기 화자별로 구분된 텍스트의 각 문장에 상기 식별자를 삽입할 수 있다.The text storage unit may be further configured to insert a speaker delimiter corresponding to each sentence of the text by receiving the speaker delimiter, and to insert the identifier in each sentence of the text divided by the speaker, when speaker recognition information exists. have.
상기 언어 인식률 판별부는 사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하고, 상기 음성 신호 저장부는 상기 언어 인식률 판별부의 제어에 따라 임시 저장된 음성 신호를 계속 저장하거나 삭제할 수 있다.The language recognition rate determination unit may determine whether to store the voice signal according to a user command or a predetermined setting value, and the voice signal storage unit may continue to store or delete the temporarily stored voice signal under the control of the language recognition rate determination unit.
상기 텍스트 저장부는 상기 음성 신호 저장부에 음성 신호가 저장되어 있으면, 저장된 텍스트의 각 구문에 대응하는 음성 신호를 매칭하여 링크하여 저장하고, 링크된 텍스트의 구문이 선택되면, 링크된 음성 신호를 재생할 수 있다.If the voice signal is stored in the voice signal storage unit, the text storage unit matches and links a voice signal corresponding to each phrase of the stored text, and if the phrase of the linked text is selected, reproduces the linked voice signal. Can be.
상기 목적을 달성하기 위한 본 발명의 일 예에 따른 대화 자동 저장 방법은 오디오 신호를 획득하는 단계; 획득된 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 단계; 기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 단계; 및 언어 인식률이 기준 인식률 이상이면, 인식된 상기 언어 정보를 텍스트 형태로 저장하는 단계; 를 포함한다.According to an aspect of the present invention, there is provided a method for automatically storing a conversation, the method including: obtaining an audio signal; Obtaining language information by performing language recognition from the obtained audio signal in a predetermined manner; Analyzing a language recognition rate of the language identification unit in a predetermined manner, and comparing the analyzed language recognition rate with a predetermined reference recognition rate to determine whether to store the recognized language; And storing the recognized language information in text form if the language recognition rate is equal to or greater than a reference recognition rate. It includes.
따라서, 본 발명의 대화 자동 저장 장치 및 방법은 음성 인식을 이용하여 음성 인식이 성공하는 경우에만 대화를 저용량의 텍스트로 변환하여 저장함으로써, 상시적으로 대화를 저장할 수 있도록 한다.Accordingly, the automatic conversation storage device and method of the present invention converts the conversation into low-capacity text only when the speech recognition succeeds using the speech recognition, thereby allowing the conversation to be stored at all times.
또한 화자 인식을 통해 텍스트로 변환된 대화를 화자별 대화를 구분하여 저장함으로써, 다수의 화자 사이의 대화의 내용을 사용자가 인지하기 용이한 형태로 저장할 수 있다. 그러므로 사용자가 텍스트로 저장된 대화 내용을 시각적으로 인지할 수 있으며, 대화가 진행되는 시간의 흐름에 제약되지 않고 대화 내용을 용이하게 탐색할 수 있도록 한다.In addition, conversations converted to text through speaker recognition are classified and stored for each speaker, so that contents of conversations between a plurality of speakers can be stored in a form that is easy for a user to recognize. Therefore, the user can visually recognize the conversation contents stored as text, and can easily navigate the conversation contents without being restricted by the passage of time.
그러므로 사용자는 강의 내용이나 대화 내용 및 취재 내용과 같이 음성으로 제공된 정보를 이후 용이하게 요약 정리할 수 있어, 대화 내용의 관리를 편리하도록 할 수 있다.Therefore, the user can easily summarize information provided by voice, such as lecture contents, conversation contents, and coverage, afterwards, to facilitate the management of conversation contents.
그리고 경우에 따라서 텍스트로 변환된 대화 내용을 오디오 신호와 함께 저장하도록 하여, 사용자가 텍스트를 선택하는 경우, 해당 오디오 신호가 재생되도록 하여 사용자의 편의성을 극대화할 뿐만 아니라, 음성 인식 성능 및 화자 인식 성능을 향상시키기 위한 기반 자료를 용이하게 획득할 수 있도록 하며, 사용자 개개인에게 특화된 음성 인식 및 화자 인식 기능을 제공할 수 있도록 한다.In some cases, the conversation contents converted to text are stored together with the audio signal, and when the user selects the text, the audio signal is reproduced to maximize the user's convenience, as well as speech recognition performance and speaker recognition performance. It is possible to easily obtain the base material to improve the quality of the information, and to provide specialized speech recognition and speaker recognition function to each user.
도1 은 본 발명의 일 실시예에 따른 대화 자동 저장 장치의 개략적 구조를 나타낸다.
도2 는 도1 의 텍스트 저장부의 상세 구성의 일 예를 나타낸다.
도3 은 본 발명의 일 실시예에 따른 대화 자동 저장 방법의 개략적 구조를 나타낸다.
도4 는 본 실시예에 따른 대화 자동 저장 장치 및 방법을 이용하여 대화가 자동 저장되는 과정의 예시를 나타낸다.1 shows a schematic structure of an automatic conversation storage device according to an embodiment of the present invention.
FIG. 2 shows an example of a detailed configuration of the text storage unit of FIG. 1.
3 shows a schematic structure of a method for automatically storing conversations according to an embodiment of the present invention.
4 illustrates an example of a process in which a conversation is automatically stored by using the apparatus and method for automatically storing conversations according to the present embodiment.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. In order to fully understand the present invention, the operational advantages of the present invention, and the objects achieved by the practice of the present invention, reference should be made to the accompanying drawings which illustrate preferred embodiments of the present invention and the contents described in the accompanying drawings.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In addition, in order to clearly describe the present invention, parts irrelevant to the description are omitted, and the same reference numerals in the drawings indicate the same members.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. Throughout the specification, when a part is said to "include" a certain component, it means that it may further include other components, without excluding the other components unless otherwise stated. In addition, the terms "... unit", "... unit", "module", "block", etc. described in the specification mean a unit for processing at least one function or operation, which means hardware, software, or hardware. And software.
도1 은 본 발명의 일 실시예에 따른 대화 자동 저장 장치의 개략적 구조를 나타낸다.1 shows a schematic structure of an automatic conversation storage device according to an embodiment of the present invention.
도1 을 참조하면, 본 실시예에 따른 대화 자동 저장 장치는 오디오 신호를 획득하는 오디오 신호 획득부(100), 획득된 오디오 신호에서 음성 언어를 식별하는 언어 식별부(200), 언어 식별부(200)의 언어 인식률에 따라 인식된 언어의 저장 여부를 결정하는 언어 인식률 판별부(300), 인식된 언어를 텍스트 형태로 저장하는 텍스트 저장부(400), 음성 신호를 저장하는 음성 저장부(500) 및 저장된 음성 신호를 분석하여 화자를 구분하는 화자 구분부(600)를 포함할 수 있다.Referring to FIG. 1, the automatic conversation storage apparatus according to the present embodiment includes an audio
오디오 신호 획득부(100)는 오디오 신호를 획득하여 전달한다. 오디오 신호 획득부(100)는 마이크와 같은 센서로 구현되거나 통신 모듈 등으로 구현될 수 있으며, 오디오 신호를 획득할 수 있는 다양한 장치로 구현될 수 있다. 여기서 오디오 신호에는 사람의 발화에 의한 음성 신호와 음성 신호 이외의 주변 잡음과 같은 노이즈 신호가 포함될 수 있다.The audio
그리고 오디오 신호 획득부(100)는 획득된 오디오 신호를 그대로 전달하지 않고, 언어 식별부(200)가 음성을 인식하여 언어를 식별 용이한 형태로 변환하여 전달할 수 있다. 일 예로 오디오 신호 획득부(100)는 시간 차원에서의 1차원 파형 그래프 형태로 표현될 수 있는 오디오 신호를 2차원 그래프 형태의 주파수 스펙트럼 그래프로 변환하여 전달 할 수 있다. 이를 위해 오디오 신호 획득부(100)는 고속 퓨리에 변환(FFT)과 같은 변환 작업을 수행할 수 있다.In addition, the audio
일반적으로 시간 차원의 1차원 파형 그래프는 오디오 신호의 특징을 추출하기 어렵기 때문에 입력된 오디오 신호에서 음성 신호와 노이즈 신호를 구분하기 어려울 뿐만 아니라, 음성 인식이 용이하지 않다. 이에 오디오 신호 획득부(100)는 1차원 파형 그래프 형태로 표현되는 오디오 신호를 2차원의 주파수 스펙트럼으로 변환하여 언어 식별부(200)로 전달할 수 있다.In general, since one-dimensional waveform graphs in the time dimension are difficult to extract features of an audio signal, it is difficult to distinguish a voice signal and a noise signal from an input audio signal, and speech recognition is not easy. Accordingly, the audio
오디오 신호 획득부(100)는 항시 오디오 신호를 획득하도록 구성될 수 있다. 오디오 신호 획득부(100)가 항시 오디오 신호를 획득하도록 구성되더라도, 본 실시예에 따른 대화 자동 저장 장치에서는 언어 인식률 판별부(300)가 언어 인식률에 따라 언어 인식 결과의 저장 여부를 판별하여 저장할 뿐만 아니라, 텍스트로 변환하여 저장함으로써, 저장 용량에 의한 제약을 최소화하여 대화를 저장할 수 있다.The audio
그러나 사용자의 평상시 생활 중에 음성이 발화되는 시간은 전체 시간 중 극히 일부에 지나지 않는다. 따라서 항시 오디오 신호 획득부(100)가 오디오 신호를 획득하도록 구성되면, 불필요하게 전력을 소모할 수 있다. 이는 대화 자동 저장 장치가 모바일 기기와 같이 배터리에 의해 제한된 전력을 사용할 수 밖에 없는 장치에 포함되는 경우, 대화 자동 저장 장치를 사용할 수 없도록 하는 장애 요인이 될 수 있다.However, the time that the voice is uttered during the normal life of the user is only a fraction of the total time. Therefore, when the audio
따라서 오디오 신호 획득부(100)는 기설정된 주기(예를 들면 5분)로 기설정된 시간(예를 들면 10초) 동안 오디오 신호를 획득하고, 획득된 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 오디오 신호의 패턴(주파수 스펙트럼 패턴)이 음성이 아닌 것으로 판별되면, 오디오 신호 획득을 중지 하여 전력 소모를 저감 시킬 수 있으며, 이후 기설정된 시간 이후에 다시 오디오 신호를 획득할 수 있다.Accordingly, the audio
오디오 신호의 세기가 기준 세기 미만인 경우, 오디오 신호에서 음성 신호를 추출하더라도 추출된 음성 신호의 세기가 충분하지 않아 음성 신호로부터 언어 인식(또는 음성 인식)이 정상적으로 수행될 수 없다. 따라서 오디오 신호 획득을 중지한다. 또한 오디오 신호의 패턴이 음성 신호에 해당하는 패턴이 아니면, 음성 인식을 수행할 필요가 없으므로, 오디오 신호의 획득을 중지한다.When the intensity of the audio signal is less than the reference intensity, even if the audio signal is extracted from the audio signal, the strength of the extracted speech signal is not sufficient, so that language recognition (or speech recognition) may not be normally performed from the speech signal. Therefore, the audio signal acquisition is stopped. In addition, if the pattern of the audio signal is not a pattern corresponding to the voice signal, it is not necessary to perform voice recognition, and thus the acquisition of the audio signal is stopped.
그리고 오디오 신호 획득부(100)는 언어 인식률 판별부(300)의 제어에 따라 오디오 신호 획득을 계속하거나 중지할 수도 있다. 일예로 오디오 신호 획득부(100)는 언어 인식률 판별부(300)가 획득된 오디오 신호가 언어로서 인식되는 것으로 판별한 경우에, 오디오 신호를 계속 획득할 수 있다. 반면, 획득된 언어로서 인식되지 않는 것으로 판별한 경우, 오디오 신호 획득을 중지할 수 있다.The audio
언어 식별부(200)는 오디오 신호 획득부(100)에서 전달되는 오디오 신호로부터 음성 인식을 수행하여 음성 언어를 식별한다. 이를 위해 언어 식별부(200)는 언어 인식부(220)를 포함할 수 있다.The
그러나 언어 식별부(200)는 음성 언어의 인식률을 향상시키기 위해, 언어 오디오 신호에서 음성 신호를 추출하는 노이즈 제거부(210)를 더 포함할 수 있다.However, the
노이즈 제거부(210)는 오디오 신호 획득부(100)에서 전달되는 오디오 신호에서 노이즈 신호를 제거한다. 노이즈 제거부(210)는 오디오 신호에서 노이즈 성분을 제거하여 전달함으로써, 언어 식별부(200)의 오디오 신호에 대한 음성 인식 성능이 향상되도록 한다.The
언어 인식부(220)는 노이즈 제거부(210)에서 노이즈가 제거된 오디오 신호를 인가받아 언어 인식을 수행한다. 언어 식별부(200)는 일예로 딥 러닝(Deep learning)과 같은 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망(artificial neural network)으로 구현되거나, 기존의 음성 인식 모듈로 구현될 수도 있다.The
언어 인식부(220)가 인공 신경망으로 구현되는 경우, 언어 인식부(220)는 일 예로 인공 신경망 중 이미지 인식 또는 음성 인식에 탁월한 성능을 나타내는 것으로 알려진 콘볼루션 신경망(Convolutional Neural Networks: 이하 CNN)으로 구현될 수 있으나 이에 한정되지 않는다. 그리고 인공 신경망으로 구현되는 언어 인식부(220)는 패턴 인식 기법에 따라 미리 학습될 수 있다.When the
언어 인식률 판별부(300)는 언어 인식부(220)의 언어 인식 결과를 분석하여, 언어 정보의 저장 여부를 판별한다.The language recognition
언어 인식률 판별부(300)는 기지정된 방식으로 언어 인식부(220)의 언어 인식률을 계산하고, 계산된 언어 인식률이 기설정된 기준 인식률 이상인지 판별한다. 여기서 언어 인식률은 일예로 획득된 전체 오디오 신호에서 언어 인식이 수행된 언어 신호의 구간의 비로서 계산될 수 있다. 그리고 언어 인식률 판별부(300)는 언어 인식률이 기준 인식률 이상이면, 언어 인식부(220)가 인식한 언어 정보를 텍스트 저장부(400)로 전송하여 인식된 언어가 텍스트 형태로 저장되도록 한다.The language recognition
본 실시예에서는 인식된 언어 정보를 텍스트 형태로 저장되도록 함으로써, 저장 공간에 대한 제약을 최소화하면서 대화 내용이 저장될 수 있도록 한다.In the present embodiment, the recognized language information is stored in the form of text, so that the contents of the conversation can be stored while minimizing the restriction on the storage space.
또한 언어 인식률 판별부(300)는 판별 결과에 따라 오디오 신호 획득부(100)를 제어하여 오디오 신호 획득부(100)가 오디오 신호를 계속 획득하거나 중지하도록 한다. 추가적으로 언어 인식률 판별부(300)는 음성 신호를 음성 저장부(500)로 전달하고, 기저장된 설정값 또는 사용자 명령에 응답하여 음성 신호의 저장 여부를 결정할 수 있다.In addition, the language recognition
여기서 언어 인식률 판별부(300)가 음성 신호를 저장할 수 있도록 하는 것은 매우 중요한 대화 내용의 경우, 음성 신호 자체가 필요할 수도 있기 때문이다. 대화 내용이 텍스트 형태로 저장되는 경우, 대화 내용을 저용량으로 용이하게 파악할 수 있으나, 중요한 대화의 경우, 텍스트로 표현될 수 없는 음성의 미묘한 어감의 변화가 필요할 수 있다.Here, the language recognition
이에 사용자는 항시 저장되는 텍스트와 별도로 설정값을 미리 설정하거나, 음성 저장의 필요성이 있는 경우, 기존과 같이 음성 저장부(500)에 오디오 신호가 저장되도록 명령할 수 있다.Accordingly, the user may preset the setting value separately from the text to be stored at all times, or when there is a necessity of storing the voice, the user may instruct the
텍스트 저장부(400)는 음성 인식된 대화 내용을 텍스트 형태로 변환하여 저장한다. 이때 텍스트 저장부(400)는 간단하게 확인 가능한 문법적 오류를 자동으로 수정하여 저장할 수도 있다.The
경우에 따라서, 언어 인식부(220)는 텍스트 형태의 언어 정보를 이용하여 음성 인식을 수행하도록 구성될 수도 있다. 이 경우, 텍스트 저장부(400)는 인식된 대화 내용을 텍스트 형태로 변환하는 과정을 수행하지 않을 수도 있다.In some cases, the
한편, 음성 저장부(500)는 기존의 대화 저장 장치에서와 유사하게 음성 신호를 인가받아 저장한다. 다만 본 실시에에서 음성 저장부(500)는 언어 인식률 판별부(300)에서 언어로서 인식 가능한 것으로 판별된 음성 신호를 저장하므로, 무의미한 노이즈 신호 및 음성 신호를 배제하고 저장할 수 있어 상대적으로 저용량으로 음성 신호를 저장할 수 있다.Meanwhile, the
또한 음성 저장부(500)는 음성 신호를 텍스트 저장부(400)에 저장되는 텍스트 중 대응하는 구문에 매칭시켜 저장할 수 있다. 이는 사용자가 저장된 텍스트를 탐색하는 중 이에 대응하는 음성 신호를 확인하고자 할 때, 즉각적으로 음성 신호를 재생시킬 수 있도록 하기 위함이다.Also, the
이를 위해, 언어 인식률 판별부(300)는 텍스트와 함께 음성 신호를 저장하도록 설정된 경우, 오디오 신호가 저장되는 파일명 및 대응하는 오디오 신호 구간을 하이퍼 링크(hyper link) 등의 형태로 텍스트의 대응하는 구문에 링크 시켜, 사용자가 해당 구문을 선택하면 대응하는 음성이 재생되도록 할 수도 있다.To this end, when the language recognition
그리고 텍스트 저장부(400)는 사용자가 음성 신호가 매칭된 구문과 음성 신호가 매칭되지 않은 구문을 용이하게 구분할 수 있도록, 해당 구문의 색상을 변경하는 등과 같이 다양한 방식으로 텍스트를 구분하여 표시할 수 있다.The
화자 구분부(600)는 음성 저장부(500)에 저장된 음성 신호를 분석하여 화자를 구분하고 구분된 화자에 대한 화자 구분자를 텍스트 저장부(400)로 전송할 수 있다.The
음성 신호가 직접 저장되는 경우에 비해 텍스트 형태로 변환되어 저장되는 경우, 여러 장점이 존재하지만, 단점 또한 발생하게 된다. 이러한 단점 중 가장 대표적인 것이, 대화의 발화자를 구분할 수 없음에 따라 사용자가 저장된 텍스트로부터 대화의 내용을 용이하게 이해하지 못하는 것이다.When a voice signal is stored in a text form compared to a case where it is directly stored, there are various advantages, but disadvantages also occur. The most representative of these shortcomings is that the user cannot easily understand the contents of the conversation from the stored text as the speaker of the conversation cannot be distinguished.
강의 또는 발표와 같은 특별한 환경 조건에서는 오디오 신호에 한 명의 발화자가 발화한 음성 신호만이 포함될 수도 있으나, 대부분의 환경에서 사용자는 대화를 위해 발화하므로, 오디오 신호에는 한 사람의 음성 신호만이 포함되지 않고, 불특정 다수의 사람들의 음성 신호가 포함된다.In special environmental conditions, such as lectures or presentations, an audio signal may contain only a voice signal spoken by one speaker, but in most circumstances, a user speaks for conversation, so the audio signal does not contain only one voice signal. And voice signals from an unspecified number of people.
따라서 음성 신호가 저장되고 사용자가 저장된 음성 신호를 재생하여 청취하는 경우, 사용자는 발화자의 음성 특징, 즉 화자 특징으로부터 발화자를 용이하게 구분할 수 있는 반면, 텍스트로 변환된 경우, 발화자의 음성 특징이 소실됨에 따라, 각각의 발화자를 구분할 수 없다. 이는 사용자가 변환된 텍스트에서 현재 문장을 누가 발화하였는지를 인지하지 못하게 하여, 대화의 흐름을 이해하기 어렵게 한다.Therefore, when the voice signal is stored and the user reproduces and listens to the stored voice signal, the user can easily distinguish the talker from the talker's voice feature, that is, the talker feature, while the voice feature of the talker is lost when converted into text. As a result, each speaker cannot be distinguished. This makes it difficult for the user to recognize who spoke the current sentence in the translated text, making it difficult to understand the flow of the conversation.
이에 본 실시예에서는 화자 구분부(600)가 각 화자별 음성 신호의 특징을 추출하여 화자를 구분할 수 있도록 함으로써, 음성 신호가 텍스트로 변환되어 저장된 이후에도 사용자가 텍스트의 각 문장에 대한 발화자를 서로 구분하여 인식할 수 있도록 한다. 즉 사용자가 저장된 텍스트로부터 대화 내용을 용이하게 이해할 수 있도록 한다.Thus, in the present embodiment, the
다만 본 실시예에서 화자 구분부(600)는 화자 인식이 아니 발화자의 구분을 주목적으로 한다. 대화 자동 저장 장치의 사용자는 불특정 다수와의 대화를 저장할 수 있다. 따라서 대부분의 개별 화자에 대한 정보가 미리 저장될 수 없기 때문에 화자 인식이 용이하지 않다. 그러므로 화자 구분부(600)는 기본적으로 화자의 구분을 위해 이용된다.However, in the present exemplary embodiment, the
그러나 대화 자동 저장 장치를 보유하는 사용자의 음성과 같이 지정된 일부 사용자의 음성 및 사용자 정보는 상대적으로 용이하게 획득될 수 있다. 예를 들어, 대화 자동 저장 장치가 스마트 폰과 같은 통화 기기로 구현되는 경우, 사용자는 전화 통화 시에 주소록 등으로부터 대화 상대의 정보를 획득할 수 있다.However, the voice and user information of some designated users, such as the voice of the user having the automatic conversation storage device, can be obtained relatively easily. For example, when the automatic conversation storage device is implemented as a calling device such as a smart phone, the user may obtain information of the conversation partner from an address book or the like during a phone call.
따라서, 화자 구분부(600)는 판별 가능한 일부 발화자에 대해서는 화자 인식을 수행할 수도 있다. 특히 대화 자동 저장 장치에서 사용자는 가장 많은 횟수 및 데이터 량으로 입력될 가능성이 높은 발화자이다. 그리고 대화에서 다수의 발화자 각각을 모두 인식하지 못하더라도, 사용자 자신의 발화 내용과 타인의 발화 내용을 구분하는 것만으로도, 이후 사용자가 대화의 내용을 이해하기가 더욱 용이해진다. 그러므로 화자 구분부(600)는 각각의 발화자의 먼저 구분하며, 구분된 발화자 중 인식 가능한 발화자에 대해서 화자 인식을 수행할 수 있다.Therefore, the
여기서 화자 구분부(600)는 음성 신호로부터 분석되는 음정의 높낮이, 음색, 음조 등과 같은 화자별 특징을 추출하고, 추출된 특징에 따라 화자별 음성 신호를 구분할 수 있다. 일 예로 화자 구분부(600)는 음성 신호를 분석하여, 남성인지 또는 여성인지, 지역별 억양을 사용하는지 등등을 분류함으로써, 음성 신호에서 화자의 수 및 각 화자의 발화 구간을 구분할 수 있다. 또한 화자별 음성 신호의 특징을 추출할 수 있다.Here, the
텍스트 저장부(400)는 화자 구분부(600)에 의해 각 텍스트 구문에 대한 화자가 구분 가능한 경우, 화자별로 구문을 구분하여 화자별 텍스트로 저장할 수 있다. 이때 구분된 화자별 구문에 화자 구분자를 삽입할 수 있다. 텍스트 저장부(400)는 일예로 각 화자별 구문의 첫머리에 U1, U2, U3과 같은 구분자를 삽입하여 사용자가 텍스트를 용이하게 이해할 수 있도록 할 수 있다.When the speaker for each text phrase is distinguishable by the
또한 텍스트 저장부(400)는 화자 구분부(600)에서 화자 인식이 가능한 경우, 인식된 화자의 식별자를 변환된 텍스트에 삽입하여 함께 저장할 수 있다. 예로서 텍스트 저장부(400)는 구분된 구문의 화자 중 인식 가능한 화자인 사용자의 구문에 대해 "U1" 대신 "나"라는 식별자를 삽입하여 저장할 수 있다.In addition, when the speaker recognizer recognizes the speaker in the
화자 구분부(600)가 음성 식별부(200)에 포함되지 않고, 별도로 구성되는 것은 실시간 화자 인식을 수행하는 것은 매우 어렵기 때문이다. 이에 본 실시예에서 화자 구분부(600)는 음성 저장부(500)에 저장된 음성 신호를 분석하여 화자를 구분하도록 한다. 그러나 화자 구분부(600)가 실시간으로 화자 인식을 수행하도록 구성되는 경우, 음성 식별부(200)에 포함되도록 구성될 수 있다.The
이를 위해 음성 저장부(500)는 언어 인식률 판별부(300)로부터 언어로 인식되는 모든 음성 신호를 인가받아 임시 저장하고, 화자 구분부(600)에서 화자 구분 또는 화자 인식이 된 이후, 인식률 판별부(300)에 설정된 음성 저장 영부에 따라 임시 저장된 음성 신호를 계속 저장하거나, 삭제할 수 있다.To this end, the
도1 에서 음성 저장부(500)와 화자 구분부(600)에 의한 음성 저장 및 화자 구분은 본 실시예에서 사용자의 텍스트 인식의 편의성을 향상 시키기 위한 것으로 필수적 구성은 아니다.In FIG. 1, the voice storage and the speaker classification by the
도2 는 도1 의 텍스트 저장부의 상세 구성의 일 예를 나타낸다.FIG. 2 shows an example of a detailed configuration of the text storage unit of FIG. 1.
도1 을 참조하여 도2 의 텍스트 저장부(400)의 구성을 살펴보면, 테스트 저장부(400)는 기본적으로 텍스트 변환 저장부(410)를 포함하며, 경우에 따라서 텍스트 편집부(420)를 더 포함할 수 있다.Referring to the configuration of the
텍스트 변환 저장부(410)는 텍스트 변환부(411) 및 텍스트 구분 저장부(413)을 포함할 수 있다.The text
텍스트 변환부(411)는 언어 인식률 판별부(300)로부터 언어 인식부(220)에서 인식된 음성 언어를 인가받아 음성 언어를 대응하는 텍스트로 변환한다. 언어 인식부(220)는 음성 신호를 지정된 언어 정보에 따라 인식하여 수행할 수 있다. 즉 지정된 언어 정보의 형태로 변환한다. 여기서 언어 정보는 텍스트 형태의 정보일 수 있으나, 텍스트 형태가 아닐 수도 있다.The
이에 텍스트 변환부(411)는 언어 인식부(220)에서 음성 신호가 텍스트 형태가 아닌 언어 정보로 인식되면, 이를 텍스트로 변환하여 출력한다. 그러나 언어 인식부(220)가 텍스트 형태로 음성을 인식하도록 구성된 경우, 텍스트 변환부(411)는 생략될 수 있다. 즉 텍스트 변환부(411)는 언어 인식부(220)와 통합되어 구성될 수 있다.When the
한편, 텍스트 구분 저장부(413)는 화자 구분부(600)에서 구분된 음성 신호의 발화자에 따라 각 텍스트의 문장 또는 구문을 구분하여 저장한다. 상기한 바와 같이, 화자 구분부(600)는 각 화자의 음성 특징을 추출하여 화자를 구분할 수 있다. 이에 텍스트 구분 저장부(413)는 변환된 텍스트의 각 구문을 화자별로 각각 구분하고, 구분된 구문에 구분자를 부여하여, 서로 다른 화자가 발화한 음성 신호에 대한 언어 인식 결과임이 해당 구문에 표시되도록 한다. 여기서 텍스트 구분 저장부(413)는 동일한 화자에 대한 인식 결과는 동일한 화자임을 사용자가 인식할 수 있도록 동일한 구분자가 텍스트에 표시되도록 한다.Meanwhile, the text
예를 들어, 텍스트 구분 저장부(413)는 3명의 화자의 대화가 텍스트 형태로 변환된 경우, 각 화자가 발화한 구문에 대해 U1, U2, U3와 같은 식별자를 첫머리에 추가하여 저장할 수 있다. 또는 각 화자에 따라 텍스트 문장의 색상을 서로 상이하게 지정할 수도 있다. 즉 화자의 구분 방법은 특정하게 지정되지 않으며, 다양하게 설정될 수 있다.For example, when the conversation of three speakers is converted into a text form, the text
또한 텍스트 구분 저장부(413)는 화자 구분부(600)가 추출된 화자의 음성 특징을 이용하여 화자를 인식할 수 있는 경우, 인식된 화자의 정보를 식별자로 함께 표시할 수도 있다.In addition, when the
예를 들어, 텍스트 구분 저장부(413)는 화자가 사용자로 판별된 경우, "나"로 화자의 식별자를 지정할 수 있으며, 주소록 등에 등록된 다른 인식 가능한 화자인 경우, 등록된 식별자를 해당 구문에 추가하여 저장할 수 있다.For example, the text distinguishing
텍스트 구분 저장부(413)가 화자별로 텍스트를 구분하여 저장하므로, 이후 사용자는 저장된 텍스트에서 각 문장의 화자를 용이하게 구분하여 인식할 수 있어, 대화의 내용을 더욱 용이하게 이해할 수 있다.Since the text
경우에 따라서 텍스트 구분 저장부(413)는 자동 문법 검사를 수행하여, 명시적인 문법적 오류를 간략하게 수정할 수도 있다. 자동 문법 검사는 텍스트를 기반으로 하는 문서 편집기 등에서 이미 이용되고 있는 기술이다. 기존의 음성 인식 장치는 대부분 텍스트 기반의 인식 결과를 제공하지 않기 때문에, 적용하기에 용이하지 않았던 반면, 본 실시예에서는 텍스트 형태의 언어 인식 결과를 제공하므로, 이러한 자동 문법 검사 기능을 용이하게 적용할 수 있다.In some cases, the text
한편, 텍스트 편집부(420)는 텍스트 변환 저장부(410)에서 화자별로 구분되어 저장된 텍스트에 대해 사용자의 직접 수정 기능을 부가적으로 제공하기 위해 포함되는 구성 요소이다.On the other hand, the
언어 식별부(200)의 언어 인식부(220)가 인공 신경망으로 구현되는 경우, 미리 지정된 패턴 인식 기법에 따라 미리 학습되지만, 이는 범용적인 음성 인식을 위한 학습이다. 따라서 각 사용자와 주요 대화 상대들에 대해 추가적인 학습이 수행된다면, 더 나은 음성 인식 결과를 제공할 수 있다.When the
이에 언어 식별부(200)의 언어 인식부(220)를 추가로 학습시켜, 사용자 개개인을 위한 최적화된 음성 인식 성능을 제공할 수 있도록, 텍스트 저장부(400)는 텍스트 편집부(420)를 더 포함할 수 있다.The
텍스트 편집부(420)는 텍스트 표시부(421), 텍스트 수정부(423) 및 오차 판별부(425)를 포함할 수 있다. 텍스트 표시부(421)는 텍스트 변환 저장부(410)에서 저장된 텍스트를 사용자에게 출력하여 표시한다. 텍스트 표시부(421)는 실시간으로 인식된 대화 내용을 디스플레이 모듈 등으로 출력하여 텍스트를 사용자에게 표시할 수 있으며, 상기한 바와 같이 화자별로 별도의 식별자 등으로 구분된 텍스트를 표시할 수 있다.The
텍스트 수정부(423)는 표시된 텍스트를 확인한 사용자가 입력하는 명령에 응답하여 텍스트를 편집 및 수정한다. 텍스트 수정부(423)는 텍스트 구분 저장부(413)의 자동 문법 검사와 달리 사용자에 의한 텍스트 편집을 수행하여, 텍스트를 실제 사용자가 인지한 대화 내용으로 수정한다.The
오차 판별부(425)는 텍스트 수정부(423)에서 수정된 텍스트와 텍스트 변환부(411)에서 변환되어 저장된 텍스트 사이의 오차를 분석하고, 분석된 오차를 언어 인식부(220)로 전달하여, 언어 인식부(220)의 음성 인식 성능을 개선한다. 이때, 오차 판별부(425)에서 판별된 오차는 딥 러닝과 같은 패턴 인식 기법에 따라 언어 인식부(220)의 인공 신경망에 역순으로 역전파됨으로써, 패턴 인식 성능을 개선할 수 있다.The
도3 은 본 발명의 일 실시예에 따른 대화 자동 저장 방법의 개략적 구조를 나타낸다.3 shows a schematic structure of a method for automatically storing conversations according to an embodiment of the present invention.
도1 및 도2 를 참조하여, 본 실시예에 따른 대화 자동 저장 방법을 설명하면, 우선 오디오 신호를 획득한다(S110). 여기서 오디오 신호는 마이크 등의 센서 또는 통신 모듈로부터 획득할 수 있으며, 기설정된 주기 단위로 획득하도록 설정될 수 있다. 그리고 획득된 오디오 신호에 대해, 기설정된 형태로 변환할 수 있으며, 일 예로, 2차원 그래프 형태의 주파수 스펙트럼 그래프로 변환하여 전달 할 수 있다.1 and 2, a method of automatically storing a conversation according to the present embodiment will be described. First, an audio signal is obtained (S110). The audio signal may be obtained from a sensor such as a microphone or a communication module, and may be set to be acquired at a predetermined cycle unit. The obtained audio signal may be converted into a predetermined form, and, for example, may be converted into a frequency spectrum graph in the form of a two-dimensional graph and transmitted.
그리고 획득되는 오디오 신호의 세기가 기설정된 기준 세기 이상인지 판별한다(S120). 만일 오디오 신호의 세기가 기준 세기 미만이면, 오디오 신호의 획득을 종료한다(S130).In operation S120, it is determined whether the strength of the obtained audio signal is greater than or equal to a predetermined reference intensity. If the intensity of the audio signal is less than the reference intensity, the acquisition of the audio signal is terminated (S130).
반면, 오디오 신호의 세기가 기준 세기 이상이면, 획득된 오디오 신호의 패턴을 분석하여, 음성 신호 패턴이 포함되어 있는지 판별한다(S140). 만일 음성 신호 패턴이 포함되지 않은 것으로 판단되면, 오디오 신호의 획득을 종료한다(S130).On the other hand, if the intensity of the audio signal is greater than the reference intensity, by analyzing the pattern of the obtained audio signal, it is determined whether the speech signal pattern is included (S140). If it is determined that the voice signal pattern is not included, the acquisition of the audio signal is terminated (S130).
그러나 음성 신호 패턴이 포함된 것으로 판단되면, 오디오 신호를 필터링하여 노이즈를 제거한다(S150). 그리고 노이즈가 제거된 오디오 신호에 대해, 언어 인식(또는 음성 인식)을 수행한다(S160).However, if it is determined that the voice signal pattern is included, the audio signal is filtered to remove noise (S150). Then, language recognition (or speech recognition) is performed on the audio signal from which the noise is removed (S160).
언어 인식의 결과로서, 언어 인식률을 분석하여 언어 인식률이 기설정된 기준 인식률 이상인지 판별한다(S170). 만일 언어 인식률이 기준 인식률 미만이면, 무의미한 오디오 신호가 입력된 것으로 판단하여, 오디오 신호 획득을 종료한다(S130). 그러나 언어 인식률이 기준 인식률 이상이면, 인식된 언어 정보를 텍스트 형태로 저장한다(S180). 그리고 텍스트 저장 형태로 저장시에 인식된 음성 신호를 함께 임시 저장할 수 있다. 이때 임시 저장되는 음성 신호는 저장된 텍스트의 대응하는 각 구문에 매칭되어 저장될 수 있다. 즉 오디오 신호에서 노이즈 신호 및 인식 불가능한 음성 신호 구간을 제외하고, 음성 인식이 가능한 구간의 음성 신호만을 저장하여 저장 용량을 저감하도록 할 수 있다. 또한 음성 신호는 텍스트의 대응하는 구문에 링크되어 저장되어 특정 구문이 선택되는 경우, 대응하는 음성 신호가 재생되도록 설정될 수 있다.As a result of language recognition, the language recognition rate is analyzed to determine whether the language recognition rate is equal to or greater than a preset reference recognition rate (S170). If the language recognition rate is less than the reference recognition rate, it is determined that a meaningless audio signal is input, and the acquisition of the audio signal is terminated (S130). However, if the language recognition rate is greater than or equal to the reference recognition rate, the recognized language information is stored in text form (S180). In addition, it is possible to temporarily store the voice signal recognized at the time of storage in the form of text storage. In this case, the temporarily stored voice signal may be matched with each corresponding phrase of the stored text and stored. That is, except for a noise signal and an unrecognizable speech signal section, the audio signal may store only a speech signal in a section in which speech recognition is possible to reduce the storage capacity. In addition, the voice signal may be linked to and stored in a corresponding phrase of the text so that when a specific phrase is selected, the corresponding voice signal may be set to be reproduced.
한편 음성 신호가 임시 저장되면, 임시 저장된 음성 신호를 분석하여, 화자를 구분하고 구분된 화자에 대한 화자 구분자를 텍스트 저장부(400)로 전송한다(S190). 이에 텍스트 저장부(400)는 화자 구분자에 따라 저장된 텍스트의 각 구문에 화자 구분자를 추가함으로써, 사용자가 텍스트로 저장된 대화의 내용을 용이하게 인식할 수 있도록 한다.On the other hand, if the voice signal is temporarily stored, and analyzes the temporarily stored voice signal, and distinguishes the speaker and transmits the speaker delimiter for the divided speaker to the text storage (400) (S190). The
또한 화자 구분 시, 화자 인식이 가능한 경우에는 인식된 화자에 대한 식별자를 텍스트 저장부(400)로 전송하여 화자 구분자가 아닌 식별자가 텍스트에 추가되도록 할 수 있다.In addition, when speaker recognition is possible, when the speaker recognition is possible, the identifier for the recognized speaker may be transmitted to the
그리고 화자 구분 및 화자 인식이 되면, 임시 저장된 음성 신호의 저장 여부 설정을 판별한다(S200). 만일 음성 신호를 저장하는 것으로 설정되어 있으면, 임시 저장된 음성 신호 그대로 저장한다(S210). 그러나 음성 신호를 저장하지 않는 것으로 설정되어 있으면, 임시 저장된 음성 신호를 삭제한다(S220).When the speaker is divided and the speaker is recognized, it is determined whether to store the temporarily stored voice signal (S200). If the voice signal is set to be stored, the voice signal is temporarily stored as it is (S210). However, if the voice signal is set not to store, the voice signal is temporarily stored (S220).
그리고 다시 기설정된 주기 이후에 오디오 신호를 획득한다(S110).In operation S110, an audio signal is acquired after a predetermined period.
본 실시예에서는 인식된 대화가 텍스트 형태로 저장되므로, 음성 신호는 저장할 필요는 없다. 그러나 사용자가 음성 신호를 저장하고자 하는 경우가 발생할 수 있을 뿐만 아니라, 이후 언어 인식 성능의 향상을 위해서 오디오 신호가 필요할 수도 있다. 이에 본 실시예에 따른 대화 자동 저장 방법은 미리 지정된 설정값이나 사용자 명령에 응답하여 음성 신호를 텍스트의 각 구문에 매칭하여 저장할 수 있다. In the present embodiment, since the recognized conversation is stored in text form, it is not necessary to store the voice signal. However, not only a case where a user wants to store a voice signal may occur, but also an audio signal may be required to improve language recognition performance. Accordingly, in the automatic conversation storing method according to the present embodiment, a voice signal may be matched with each phrase of text in response to a predetermined setting value or a user command.
결과적으로 본 발명의 실시예에 따른 대화 자동 저장 장치 및 방법은 획득되는 오디오 신호로부터 언어의 형태로 인식되는 대화 내용을 텍스트 형태로 저장함으로써, 저 용량으로 대화 내용을 저장할 수 있도록 한다. 대화 내용이 텍스트로 저장되므로, 사용자는 저장된 텍스트로부터 대화 내용을 시각적으로 빠르고 용이하게 확인할 수 있다. 또한 오디오 신호 중 음성 신호를 함께 저장할 수 있으며, 음성 신호가 함께 저장되는 경우에 텍스트에 대응하는 음성 신호만을 저장함으로써 저 용량으로 음성 신호를 저장할 수 있도록 한다. 뿐만 아니라 텍스트와 음성 신호를 매칭하여 제공함으로써, 사용자의 필요에 따라 즉각 음성 신호의 해당 구간을 재생할 수 있도록 하여 사용자의 편의성을 극대화 할 수 있다. As a result, the automatic conversation storage apparatus and method according to the embodiment of the present invention enables the conversation contents to be stored at a low capacity by storing the conversation contents recognized in the form of language from the obtained audio signal in text form. Since the conversation is stored as text, the user can visually and quickly confirm the conversation from the stored text. In addition, the audio signal can be stored together among the audio signals, and when the voice signal is stored together, only the voice signal corresponding to the text can be stored so that the voice signal can be stored with low capacity. In addition, by providing text and voice signals by matching, it is possible to maximize the user's convenience by allowing the user to immediately play the corresponding section of the voice signal.
그리고 텍스트의 문장을 화자별로 구별하여, 화자 구분자를 추가함으로써, 저장된 텍스트에 대한 이해력을 크게 향상 시킬 수 있으며, 텍스트를 사용자가 수정할 수 있도록 하여 음성 인식 성능을 향상시킬 수 있으며, 텍스트와 오디오 신호가 함께 저장됨으로써, 향후, 음성 인식을 위한 학습 데이터를 용이하게 획득할 수 있도록 한다.And by distinguishing the sentences of the text by the speaker, by adding the speaker separator, the understanding of the stored text can be greatly improved, and the text can be modified by the user to improve the speech recognition performance. By being stored together, it is possible to easily acquire the training data for speech recognition in the future.
도4 는 본 실시예에 따른 대화 자동 저장 장치 및 방법을 이용하여 대화가 자동 저장되는 과정의 예시를 나타낸다.4 illustrates an example of a process in which a conversation is automatically stored by using the apparatus and method for automatically storing conversations according to the present embodiment.
도4 는 (a)에 도시된 바와 같이 한 명의 사용자(U)와 두 명의 대화 상대(O1, O2)가 대화하는 경우에 본 발명의 대화 자동 저장 장치(TAR)가 대화를 자동 저장하는 실시예를 나타낸다.4 illustrates an embodiment in which a conversation automatic storage device (TAR) of the present invention automatically stores a conversation when one user U and two conversation partners (O1, O2) have a conversation as shown in (a). Indicates.
도4 의 (a)에서 대화 자동 저장 장치(TAR)는 한 명의 사용자(U)와 두 명의 대화 상대(O1, O2)의 발화를 모두 감지하여 오디오 신호를 (b)와 같이 획득한다. 그리고 획득된 오디오 신호를 (c)와 같이 주파수 스펙트럼으로 변환할 수 있다. 대화 자동 저장 장치(TAR)는 주파수 스펙트럼으로 변환된 오디오 신호에 대해 언어 인식을 수행하여, (d)와 같이 텍스트 형태로 저장한다.In FIG. 4A, the conversation automatic storage device TAR detects all the utterances of one user U and two conversation partners O1 and O2 to obtain an audio signal as shown in (b). The obtained audio signal may be converted into a frequency spectrum as shown in (c). The automatic conversation storage apparatus (TAR) performs language recognition on the audio signal converted into the frequency spectrum and stores the text in a text form as shown in (d).
이때, 언어 인식은 오디오 신호로부터 노이즈를 제거하여 언어 인식을 수행할 수 있다. 그리고 음성 신호를 임시 저장하고, 임시 저장된 음성 신호를 분석함으로써 각 화자를 구분 또는 인식하고, 구분 또는 인식된 화자의 구분자를 언어 인식된 텍스트의 각 구문에 추가하여 제공한다. 여기서 대화 자동 저장 장치(TAR)는 사용자(U)에 대해서는 화자 인식이 가능한 것으로 가정하여, 화자로서 사용자(U)의 음성에 대응하는 텍스트에 "나"라는 식별자를 지정하여 표시하였다. 반면, 다른 화자의 경우, 각 음성에 대한 화자를 구분할 수는 있으나 인식할 수 없는 상태이므로, O1, O2와 같은 구분자로 구분하여 표시하였다.In this case, language recognition may perform language recognition by removing noise from an audio signal. The speech signal is temporarily stored, and each speaker is distinguished or recognized by analyzing the temporarily stored speech signal, and a separator of the distinguished or recognized speaker is added to each phrase of the language-recognized text. Here, the conversation automatic storage device (TAR) assumes that speaker U can be recognized by the user U, and designates an identifier of "I" in text corresponding to the voice of the user U as a speaker. On the other hand, in the case of other speakers, since the speaker for each voice can be distinguished but not recognized, it is divided and displayed as a separator such as O1 and O2.
그러나 이러한 단순 구분으로도 발화의 주체를 사용자가 서로 구분하여 대화 내용을 인식할 수 있게 됨에 따라 대화 내용을 매우 용이하게 파악할 수 있다.However, even with such a simple division, the subjects of the utterance can be distinguished from each other so that the conversation contents can be easily recognized.
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.The method according to the invention can be implemented as a computer program stored in a medium for execution in a computer. The computer readable media herein can be any available media that can be accessed by a computer and can also include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, and includes ROM (readable) Dedicated memory), RAM (random access memory), CD (compact disk) -ROM, DVD (digital video disk) -ROM, magnetic tape, floppy disk, optical data storage, and the like.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.Although the present invention has been described with reference to the embodiments shown in the drawings, this is merely exemplary, and it will be understood by those skilled in the art that various modifications and equivalent other embodiments are possible.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.
100: 오디오 신호 획득부
200: 언어 식별부
210: 음성 추출부
220: 언어 인식부
300: 언어 인식률 판별부
400: 텍스트 저장부
500: 음성 저장부
600: 화자 구분부
410: 텍스트 변환 저장부
411: 텍스트 변환부
413: 텍스트 구분 저장부
420: 텍스트 편집부
421: 텍스트 표시부
423: 텍스트 수정부
425: 오차 판별부100: audio signal acquisition unit 200: language identification unit
210: speech extraction unit 220: language recognition unit
300: language recognition rate determination unit 400: text storage unit
500: voice storage unit 600: speaker division unit
410: text conversion storage unit 411: text conversion unit
413: text division storage unit 420: text editing unit
421: Text display unit 423: Text correction unit
425: error determination unit
Claims (19)
상기 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 언어 식별부;
기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 언어 인식률 판별부; 및
상기 언어 인식률 판별부의 제어에 따라 상기 언어 식별부에서 인식된 언어 정보를 텍스트 형태로 저장하는 텍스트 저장부; 를 포함하는 대화 자동 저장 장치.An audio signal obtaining unit obtaining an audio signal;
A language identifier for performing language recognition from the audio signal in a predetermined manner to obtain language information;
A language recognition rate determination unit for analyzing a language recognition rate of the language identification unit in a predetermined manner, and determining whether to store the recognized language by comparing the analyzed language recognition rate with a preset reference recognition rate; And
A text storage unit storing language information recognized by the language identification unit in a text form under the control of the language recognition rate determination unit; Conversation auto storage device comprising a.
미리 지정된 주기 단위로 상기 오디오 신호를 획득하고, 상기 오디오 신호의 세기가 기설정된 기준 세기 미만이거나, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 대화 자동 저장 장치.The method of claim 1, wherein the audio signal acquisition unit
Acquiring the audio signal in units of a predetermined period, and if the intensity of the audio signal is less than a predetermined reference intensity or if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, the acquisition of the audio signal is stopped. Automatic conversation storage that acquires audio signals again next cycle.
상기 오디오 신호를 주파수 스펙트럼 형태로 변환하여 상기 언어 식별부로 전달하고, 상기 언어 인식률 판별부가 상기 언어 인식률이 기설정된 기준 인식률 미만인 것으로 판단하면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 대화 자동 저장 장치.The method of claim 2, wherein the audio signal acquisition unit
When the audio signal is converted into a frequency spectrum form and transmitted to the language identification unit, and the language recognition rate determining unit determines that the language recognition rate is less than a predetermined reference recognition rate, the acquisition of the audio signal is stopped and the audio signal is supplied again in the next cycle. Acquire conversation auto store.
상기 오디오 신호에서 노이즈 신호를 제거하고, 노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득하는 대화 자동 저장 장치.The method of claim 1, wherein the language identification unit
And automatically removing the noise signal from the audio signal and performing language recognition on the audio signal from which the noise signal has been removed.
기지정된 패턴 인식 기법에 따라 미리 학습된 적어도 하나의 인공 신경망으로 구현되는 대화 자동 저장 장치.The method of claim 1, wherein the language identification unit
Automatic dialogue storage device implemented with at least one artificial neural network that has been learned in advance according to a predetermined pattern recognition technique.
상기 언어 인식을 수행하여 텍스트 형태의 상기 언어 정보를 획득하는 대화 자동 저장 장치.The method of claim 1, wherein the language identification unit
And automatically acquire the language information in the form of text by performing the language recognition.
상기 언어 정보를 인가받아 텍스트로 변환하여 저장하는 대화 자동 저장 장치.The method of claim 1, wherein the text storage unit
And automatically converts the language information into text and stores the converted text.
상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 음성 신호 저장부; 및
임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하고, 구분된 화자에 대한 화자 구분자를 상기 텍스트 저장부로 전달하며, 구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 상기 텍스트 저장부로 전달하는 화자 구분부; 를 더 포함하는 대화 자동 저장 장치.The method of claim 1, wherein the automatic conversation storage device
A voice signal storage unit for receiving and temporarily storing a voice signal corresponding to the recognized language information; And
Analyzing the temporarily stored voice signal, distinguishes the speaker of the voice signal, and delivers a speaker separator for the divided speaker to the text storage unit, and if there is a recognizer among the divided speakers, the identifier for the recognized speaker A speaker separator for transmitting a to the text storage; Conversation automatic storage device further including.
상기 화자 구분자를 인가받아 상기 텍스트의 각 문장에 대응하는 화자 구분자를 추가로 삽입하고, 화자 인식 정보가 존재하는 경우, 상기 화자별로 구분된 텍스트의 각 문장에 상기 식별자를 삽입하는 대화 자동 저장 장치.The method of claim 8, wherein the text storage unit
And a speaker delimiter corresponding to each sentence of the text in response to receiving the speaker delimiter and inserting the identifier into each sentence of the text divided by the speaker, if speaker recognition information is present.
사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하고,
상기 음성 신호 저장부는
상기 언어 인식률 판별부의 제어에 따라 임시 저장된 음성 신호를 계속 저장하거나 삭제하는 대화 자동 저장 장치.The method of claim 8, wherein the language recognition rate determination unit
Determine whether to store the voice signal according to user commands or predetermined settings,
The voice signal storage unit
And automatically storing or deleting the temporarily stored voice signal under the control of the language recognition rate determination unit.
상기 음성 신호 저장부에 음성 신호가 저장되어 있으면, 저장된 텍스트의 각 구문에 대응하는 음성 신호를 매칭하여 링크하여 저장하고,
링크된 텍스트의 구문이 선택되면, 링크된 음성 신호를 재생하는 대화 자동 저장 장치.The method of claim 9, wherein the text storage unit
If a voice signal is stored in the voice signal storage unit, a voice signal corresponding to each phrase of the stored text is matched and linked, and stored.
Automatic conversation storage that plays a linked speech signal when a phrase of the linked text is selected.
사용자가 저장된 텍스트를 확인할 수 있도록 표시하고, 표시된 텍스트에 대해 수정 명령을 인가하면, 상기 텍스트를 수정하며, 수정된 오차를 상기 언어 식별부로 전달하는 텍스트 편집부; 를 더 포함하는 대화 자동 저장 장치.The method of claim 1, wherein the text storage unit
A text editing unit for displaying the user to check the stored text, applying a correction command to the displayed text, correcting the text, and transmitting the corrected error to the language identification unit; Conversation automatic storage device further including.
획득된 오디오 신호로부터 기지정된 방식으로 언어 인식을 수행하여 언어 정보를 획득하는 단계;
기지정된 방식으로 상기 언어 식별부의 언어 인식률을 분석하고, 분석된 언어 인식률을 기설정된 기준 인식률과 비교하여 인식된 언어의 저장 여부를 판별하는 단계; 및
언어 인식률이 기준 인식률 이상이면, 인식된 상기 언어 정보를 텍스트 형태로 저장하는 단계; 를 포함하는 대화 자동 저장 방법.Obtaining an audio signal;
Obtaining language information by performing language recognition from the obtained audio signal in a predetermined manner;
Analyzing a language recognition rate of the language identification unit in a predetermined manner, and comparing the analyzed language recognition rate with a predetermined reference recognition rate to determine whether to store the recognized language; And
If the language recognition rate is greater than or equal to the reference recognition rate, storing the recognized language information in text form; Conversation auto save method comprising a.
미리 지정된 시간 주기에 상기 오디오 신호를 획득하는 단계;
상기 오디오 신호의 세기가 기설정된 기준 세기 미만이면, 상기 오디오 신호의 패턴에 음성 신호에 대응하는 패턴이 포함되지 않으면, 상기 오디오 신호의 획득을 중지하는 단계; 및
다음 주기에 오디오 신호를 다시 획득하는 단계; 를 포함하는 대화 자동 저장 방법.The method of claim 13, wherein the acquiring of the audio signal
Acquiring the audio signal at a predetermined time period;
If the intensity of the audio signal is less than a preset reference intensity, if the pattern corresponding to the voice signal is not included in the pattern of the audio signal, stopping the acquisition of the audio signal; And
Reacquiring the audio signal in the next period; Conversation auto save method comprising a.
상기 오디오 신호를 주파수 스펙트럼 형태로 변환하는 단계;
상기 언어 인식률이 기설정된 기준 인식률 미만인 것으로 판단되면, 상기 오디오 신호의 획득을 중지하고 다음 주기에 다시 오디오 신호를 획득하는 단계; 를 더 포함하는 대화 자동 저장 방법.15. The method of claim 14, wherein acquiring the audio signal
Converting the audio signal into a frequency spectrum form;
If it is determined that the language recognition rate is less than a predetermined reference recognition rate, stopping the acquisition of the audio signal and acquiring the audio signal again in the next period; Conversation autosave method comprising more.
상기 오디오 신호에서 노이즈 신호를 제거하는 단계; 및
노이즈 신호가 제거된 오디오 신호에 대해 언어 인식을 수행하여 상기 언어 정보를 획득하는 단계; 를 포함하는 대화 자동 저장 방법.The method of claim 13, wherein obtaining the language information comprises:
Removing a noise signal from the audio signal; And
Obtaining language information by performing language recognition on the audio signal from which the noise signal is removed; Conversation auto save method comprising a.
상기 인식된 언어 정보에 대응하는 음성 신호를 인가받아 임시 저장하는 단계;
임시 저장된 상기 음성 신호를 분석하여, 상기 음성 신호의 화자를 구분하여 화자 구분자를 설정하는 단계; 및
구분된 화자 중 인식 가능한 화자가 존재하면, 인식된 화자에 대한 식별자를 획득하는 단계; 를 더 포함하는 대화 자동 저장 방법.The method of claim 13, wherein the conversation auto-save method is
Receiving and temporarily storing a voice signal corresponding to the recognized language information;
Analyzing the temporarily stored voice signal and setting a speaker identifier by dividing the speaker of the voice signal; And
Acquiring an identifier for the recognized speaker if there is a recognizable speaker among the divided speakers; Conversation autosave method comprising more.
상기 언어 정보를 텍스트로 저장하는 단계;
획득된 화자 구분자 및 식별자가 존재하면, 상기 텍스트의 각 문장에 대응하는 화자 구분자 또는 식별자를 삽입하는 단계; 를 포함하는 대화 자동 저장 방법.The method of claim 17, wherein the storing in the text form
Storing the language information as text;
Inserting a speaker delimiter or identifier corresponding to each sentence of the text, if the obtained speaker delimiter and identifier exist; Conversation auto save method comprising a.
사용자 명령 또는 기지정된 설정값에 따라 음성 신호의 저장 여부를 판별하는 단계;
상기 음성 신호를 저장하는 것으로 판별되면, 임시 저장된 음성 신호를 계속 저장하는 단계; 및
상기 음성 신호를 저장하지 않는 것으로 판별되면, 임시 저장된 음성 신호를 삭제하는 단계; 를 더 포함하는 대화 자동 저장 방법.18. The method of claim 17, wherein the method for automatically saving a conversation
Determining whether to store a voice signal according to a user command or a predetermined setting value;
If it is determined that the voice signal is stored, continuing to store the temporarily stored voice signal; And
If it is determined that the voice signal is not stored, deleting the temporarily stored voice signal; Conversation autosave method comprising more.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180070668A KR20190143116A (en) | 2018-06-20 | 2018-06-20 | Talk auto-recording apparatus method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180070668A KR20190143116A (en) | 2018-06-20 | 2018-06-20 | Talk auto-recording apparatus method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190143116A true KR20190143116A (en) | 2019-12-30 |
Family
ID=69102927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180070668A KR20190143116A (en) | 2018-06-20 | 2018-06-20 | Talk auto-recording apparatus method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190143116A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102312993B1 (en) * | 2020-06-12 | 2021-10-13 | 주식회사 리턴제로 | Method and apparatus for implementing interactive message using artificial neural network |
WO2021256614A1 (en) * | 2020-06-16 | 2021-12-23 | 주식회사 마인즈랩 | Method for generating speaker-marked text |
KR102462219B1 (en) * | 2021-06-15 | 2022-11-04 | (주)미소정보기술 | Method of Automatically Generating Meeting Minutes Using Speaker Diarization Technology |
-
2018
- 2018-06-20 KR KR1020180070668A patent/KR20190143116A/en not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102312993B1 (en) * | 2020-06-12 | 2021-10-13 | 주식회사 리턴제로 | Method and apparatus for implementing interactive message using artificial neural network |
WO2021256614A1 (en) * | 2020-06-16 | 2021-12-23 | 주식회사 마인즈랩 | Method for generating speaker-marked text |
KR20210155866A (en) * | 2020-06-16 | 2021-12-24 | 주식회사 마인즈랩 | Method for generating speaker-labeled text |
KR102462219B1 (en) * | 2021-06-15 | 2022-11-04 | (주)미소정보기술 | Method of Automatically Generating Meeting Minutes Using Speaker Diarization Technology |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6633008B2 (en) | Voice interaction device and voice interaction method | |
CN111128223B (en) | Text information-based auxiliary speaker separation method and related device | |
JP4600828B2 (en) | Document association apparatus and document association method | |
KR20170030297A (en) | System, Apparatus and Method For Processing Natural Language, and Computer Readable Recording Medium | |
KR102298457B1 (en) | Image Displaying Apparatus, Driving Method of Image Displaying Apparatus, and Computer Readable Recording Medium | |
KR20170028628A (en) | Voice Recognition Apparatus, Driving Method of Voice Recognition Apparatus, and Computer Readable Recording Medium | |
CN108242238B (en) | Audio file generation method and device and terminal equipment | |
JP2007519987A (en) | Integrated analysis system and method for internal and external audiovisual data | |
KR20190143116A (en) | Talk auto-recording apparatus method | |
US20090271196A1 (en) | Classifying portions of a signal representing speech | |
US20210232776A1 (en) | Method for recording and outputting conversion between multiple parties using speech recognition technology, and device therefor | |
JP5099211B2 (en) | Voice data question utterance extraction program, method and apparatus, and customer inquiry tendency estimation processing program, method and apparatus using voice data question utterance | |
US11238869B2 (en) | System and method for reconstructing metadata from audio outputs | |
CN106373598A (en) | Audio replay control method and apparatus | |
JP2012181358A (en) | Text display time determination device, text display system, method, and program | |
KR102020773B1 (en) | Multimedia Speech Recognition automatic evaluation system based using TTS | |
CN113744742A (en) | Role identification method, device and system in conversation scene | |
KR102666826B1 (en) | Speaker classification system using STT | |
EP2913822B1 (en) | Speaker recognition | |
CN113076747A (en) | Voice recognition recording method based on role recognition | |
KR101933822B1 (en) | Intelligent speaker based on face reconition, method for providing active communication using the speaker, and computer readable medium for performing the method | |
JP5713782B2 (en) | Information processing apparatus, information processing method, and program | |
KR102408455B1 (en) | Voice data synthesis method for speech recognition learning, and computer program recorded on record-medium for executing method therefor | |
KR20220121456A (en) | Speaker classification system that categorizes and stores conversation text | |
JP2016186646A (en) | Voice translation apparatus, voice translation method and voice translation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |