KR20210042851A - audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program - Google Patents

audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program Download PDF

Info

Publication number
KR20210042851A
KR20210042851A KR1020210033390A KR20210033390A KR20210042851A KR 20210042851 A KR20210042851 A KR 20210042851A KR 1020210033390 A KR1020210033390 A KR 1020210033390A KR 20210033390 A KR20210033390 A KR 20210033390A KR 20210042851 A KR20210042851 A KR 20210042851A
Authority
KR
South Korea
Prior art keywords
audio
audio signal
reproducing
recognition
signal
Prior art date
Application number
KR1020210033390A
Other languages
Korean (ko)
Other versions
KR102488319B1 (en
Inventor
쉬 준화
시앙 웨이
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20210042851A publication Critical patent/KR20210042851A/en
Application granted granted Critical
Publication of KR102488319B1 publication Critical patent/KR102488319B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

The present invention relates to the fields of voice technology, Internet of Things and smart transportation, and provides an audio recognition method, an audio recognition device, electronic equipment, a computer-readable storage medium, and a computer program. The audio recognition method comprises the steps of: obtaining a first audio signal obtained by recording; processing the first audio signal according to a first frequency response of sound obtained by reproducing a calibration signal by first audio reproducing equipment and a first filtering coefficient calculated from a frequency response of the calibration signal to obtain a second audio signal; and recognizing sound obtained by reproducing the second audio signal using a first audio reproducing device.

Description

오디오 인식 방법, 오디오 인식 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램{audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program}Audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program TECHNICAL FIELD [audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program]

본 발명은 컴퓨터 기술, 음성 처리 기술 분야에 관한 것으로서, 주로 음성 인식 기술, 사물 인터넷, 스마트 교통 분야에 관한 것이다. 특히, 오디오 인식 방법, 오디오 인식 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램에 관한 것이다.The present invention relates to the field of computer technology and voice processing technology, and mainly to the field of speech recognition technology, Internet of Things, and smart transportation. In particular, it relates to an audio recognition method, an audio recognition device, an electronic equipment, a computer-readable storage medium and a computer program.

음성 처리 기술의 지속적인 발전에 따라, 각 업종에서 음성 인식 기술은 점점 광범위하게 적용되고 있고, 여기에는, 스마트 카, 스마트 사운드 박스 등이 포함되는데, 이에 한정되지는 않는다. 구체적으로는, 예를 들어, 자동차 스마트 네트워킹 기술이 발전함에 따라, 차량에서 음성 인식 기술의 응용은 나날이 광범위화되고 있다. 인식율은, 차량 탑재 음성 인식 성능의 평가 지표 중의 하나로서, 전반적인 음성 인식 시스템의 개발 과정에서 매우 중요한 역할을 한다. 종래 기술에서는, 일반적으로 작업자가 현장에서 테스트하는 방식으로 장비의 음성 인식 성능을 테스트하는데, 현장에서 테스트하는 방식은 외부 간섭 요소의 제한을 받으므로, 인력이 소모되고 및 테스트 효율이 낮은 문제점이 있다.With the continuous development of speech processing technology, speech recognition technology is increasingly widely applied in each industry, and includes, but is not limited to, a smart car, a smart sound box, and the like. Specifically, for example, with the development of smart networking technology in automobiles, the application of speech recognition technology in vehicles is becoming more extensive day by day. Recognition rate, as one of the evaluation indexes of on-vehicle speech recognition performance, plays a very important role in the development of an overall speech recognition system. In the prior art, in general, an operator tests the speech recognition performance of the equipment in a manner in which the operator tests in the field, but the method in the field testing is limited by external interference factors, so there is a problem that manpower is consumed and the test efficiency is low. .

본 발명은 오디오 인식 방법, 오디오 인식 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다.The present invention provides an audio recognition method, an audio recognition device, electronic equipment, a computer-readable storage medium, and a computer program.

본 발명의 제1 측면에 의하면, 녹음하여 얻은 제1 오디오 신호를 취득하는 것, 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제 1 필터링 계수에 따라, 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하는 것, 및 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것을 포함하는 오디오 인식 방법을 제공한다.According to a first aspect of the present invention, acquiring a first audio signal obtained by recording, calculated from a first frequency response of sound obtained by reproducing a calibration signal by a first audio reproduction device, and a frequency response of the calibration signal. In accordance with a first filtering coefficient, processing the first audio signal to obtain a second audio signal, and recognizing a sound obtained by reproducing the second audio signal using the first audio reproduction device. Provides an audio recognition method.

본 발명의 제2 측면에 의하면, 녹음하여 얻은 제1 오디오 신호를 취득하기 위한 제1 취득 모듈, 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제 1 필터링 계수에 따라, 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하기 위한 제1 처리 모듈, 및 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하기 위한 인식 모듈을 포함하는 오디오 인식 장치를 제공한다.According to a second aspect of the present invention, a first acquisition module for acquiring a first audio signal obtained by recording, a first frequency response of a sound obtained by reproducing a calibration signal by a first audio reproduction device, and a frequency of the calibration signal According to the first filtering coefficient calculated from the response, a first processing module for processing the first audio signal to obtain a second audio signal, and the second audio signal by using the first audio reproduction equipment It provides an audio recognition device including a recognition module for recognizing the obtained sound.

본 발명의 제3측면에 의하면, 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금 본 발명의 상기의 방법을 실행하게 하는 전자장비를 제공한다.According to a third aspect of the present invention, it includes at least one processor, and a memory that is communicatively connected to the at least one processor, wherein an instruction executable by the at least one processor is stored in the memory, and the instruction is When executed by the at least one processor, there is provided an electronic device that causes the at least one processor to execute the method of the present invention.

본 발명의 제4측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 프로그램이 프로세서에 의해 실행될 경우, 본 발명의 상기의 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.According to a fourth aspect of the present invention, in a non-transitory computer-readable storage medium storing a computer program, when the program is executed by a processor, a non-transitory computer-readable storage medium implementing the method of the present invention. Provides.

본 발명의 제5측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 본 발명의 상기의 방법을 구현하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.According to a fifth aspect of the present invention, in a computer program stored in a computer-readable storage medium, when the instruction of the computer program is executed by a processor, a computer stored in a computer-readable storage medium embodying the method of the present invention. Provides a program.

본 명세서에 기술된 내용은 그 목적이 본 발명의 실시예의 핵심 또는 중요한 특징을 지정하기 위한 것이 아니고, 또한, 본 발명의 범위는 이에 한정되지 아니함을 이해하여야 한다. 본 발명의 다른 특징들은 하기 설명으로부터 용이하게 이해할 수 있을 것이다.It should be understood that the contents described in the present specification are not intended to designate core or important features of the embodiments of the present invention, and the scope of the present invention is not limited thereto. Other features of the present invention will be readily understood from the following description.

본 발명에 따르면, 녹음하여 얻은 제1 오디오 신호는 서로 다른 장면에서의 테스트 음성일 수 있으므로, 현장 테스트를 할 필요가 없고, 외부 간섭 요소에 제한되는 것을 피하여, 테스트 효율을 향상시킬 수 있다. According to the present invention, since the first audio signal obtained by recording may be a test voice in different scenes, there is no need to perform a field test, and it is possible to improve test efficiency by avoiding being limited to external interference factors.

또한,제1 오디오 재생 장비는 제2 오디오 신호를 반복적으로 재생할 수 있으므로, 음성 인식 시스템의 최적화 전과 최적화 후의 차이는 최적화로 인한 것임을 알 수 있고, 테스트 요원의 발음 상태가 다름으로 인해 최적화 결과가 달라지는 문제는 존재하지 않는다. 오디오 신호는 장비에 의해 재생된 후 원래 녹음할 때와 다르게 되므로, 오디오 재생 장비의 주파수 응답 곡선에 따라, 녹음하여 얻은 오디오 신호에 대해 미리 역방향으로 조정하여, 재생 장비에 의해 재생된 소리가 녹음 시의 주파수 응답 곡선과 일치하도록 함으로써, 오디오를 재현하는 기술적 효과를 달성할 수 있다. In addition, since the first audio reproducing equipment can repeatedly reproduce the second audio signal, it can be seen that the difference between before and after the optimization of the speech recognition system is due to optimization. The problem doesn't exist. Since the audio signal is reproduced by the equipment and is different from the original recording, according to the frequency response curve of the audio reproduction equipment, the audio signal obtained by recording is adjusted in the reverse direction in advance, and the sound reproduced by the reproduction equipment is recorded. By matching the frequency response curve of, the technical effect of reproducing the audio can be achieved.

본 발명의 실시 예의 기술방안에 따르면, 인공 대신 현장 테스트를 진행할 수 있음으로, 인력을 대대적으로 절약함과 동시에, 테스트 과정중 환경에 대한 의존성을 감소시킬 수 있다.According to the technical solution of an embodiment of the present invention, since field testing can be performed instead of artificial, it is possible to significantly save manpower and reduce dependence on the environment during the test process.

첨부된 도면은 본 발명을 보다 쉽게 이해하도록 하기 위한 것이고, 본 발명은 이에 한정되지 않는다.
도1은 본 발명의 실시 예에 따른 오디오 인식 방법 및 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램이 응용될 수 있는 예시적인 응용 장면을 개략적으로 나타낸다.
도2는 본 발명의 실시 예에 따른 오디오 인식 방법의 흐름도를 개략적으로 나타낸다.
도3은 본 발명의 실시 예에 따른 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 흐름도를 개략적으로 나타낸다.
도4는 본 발명의 다른 일 실시 예에 따른 오디오 인식 방법의 흐름도를 개략적으로 나타낸다.
도5는 본 발명의 실시 예에 따른 인공 입을 통해 필터링 계수에 따른 처리를 거치지 않은 캘리브레이션 신호를 재생한 주파수 스펙트럼을 개략적으로 나타낸다.
도6은 본 발명의 실시 예에 따른 인공 입을 통해 필터링 계수에 따른 처리를 거친 캘리브레이션 신호를 재생한 주파수 스펙트럼을 개략적으로 나타낸다.
도7은 본 발명의 실시 예에 따른 오디오 인식 장치의 블록도를 개략적으로 나타낸다.
도8은 본 발명의 실시 예에 따른 오디오 인식 방법을 구현하는데 적합한 컴퓨터 시스템의 블록도를 예시적으로 나타낸다.
The accompanying drawings are intended to make the present invention easier to understand, and the present invention is not limited thereto.
1 schematically shows an exemplary application scene to which an audio recognition method and apparatus, electronic equipment, a computer-readable storage medium, and a computer program according to an embodiment of the present invention can be applied.
2 is a schematic flowchart of an audio recognition method according to an embodiment of the present invention.
3 schematically shows a flowchart of recognizing sound obtained by reproducing a second audio signal using a first audio reproducing device according to an embodiment of the present invention.
4 is a schematic flowchart of an audio recognition method according to another embodiment of the present invention.
5 schematically shows a frequency spectrum obtained by reproducing a calibration signal that has not been processed according to a filtering coefficient through an artificial mouth according to an embodiment of the present invention.
6 schematically shows a frequency spectrum obtained by reproducing a calibration signal processed according to filtering coefficients through an artificial mouth according to an embodiment of the present invention.
7 is a schematic block diagram of an audio recognition apparatus according to an embodiment of the present invention.
8 is an exemplary block diagram of a computer system suitable for implementing an audio recognition method according to an embodiment of the present invention.

이하, 도면을 참조하여 본 발명의 예시적인 실시예들을 설명한다. 쉽게 이해할 수 있도록, 본 명세서에서 설명한 각 실시예의 세부사항을 포함하게 되는데, 이들은 단지 예시적인 것에 불과하다. 따라서, 당업자라면 본 발명의 범위 및 취지를 벗어나지 않으면서 본 발명의 실시예에 대해 여러가지 변경 및 수정이 이루어질 수 있음을 이해할 것이다. 또한, 명확성과 간결성을 위해 하기의 설명에 있어서, 공지된 기능 및 구성에 대한 설명은 생략한다.Hereinafter, exemplary embodiments of the present invention will be described with reference to the drawings. For ease of understanding, details of each embodiment described herein are included, which are merely exemplary. Accordingly, those skilled in the art will understand that various changes and modifications can be made to the embodiments of the present invention without departing from the scope and spirit of the present invention. In addition, in the following description for clarity and conciseness, a description of known functions and configurations will be omitted.

음성 인식 기술의 지속적인 발전에 따라, 음성 인식 기술은 다양한 응용 분야에서 광범위하게 응용되고 있으며, 음성 인식의 성능에 대한 사용자의 요구도 점점 높아지고 있다. 장비의 출고 시의 음성 인식 성능을 향상시키기 위해서는, 음성 인식 기능에 대해 끊임없이 테스트하고 최적화할 필요가 있다.With the continuous development of speech recognition technology, speech recognition technology has been widely applied in various application fields, and user demands for the performance of speech recognition are also increasing. In order to improve the speech recognition performance when the equipment is shipped from the factory, it is necessary to constantly test and optimize the speech recognition function.

종래 기술에서는, 일반적으로 작업자가 현장에서 테스트하는 방식으로 장비의 음성 인식 성능을 테스트하는데, 예를 들어, 차량 탑재 음성을 인식할 경우, 고속도로, 콜타르 도로, 아스팔트 길, 비 오는 날 등 현장환경에서 차량 탑재 음성을 테스트 할 필요가 있다. 또 예를 들면, 사운드 박스의 음성을 인식할 경우, 거실, 주방, 회의실 등과 같은 사운드 박스의 실제 사용 장소에서 현장 테스트를 진행할 필요가 있다.In the prior art, in general, an operator tests the voice recognition performance of the equipment in a manner that is tested in the field. It is necessary to test the in-vehicle voice. In addition, for example, in the case of recognizing the voice of a sound box, it is necessary to conduct a field test at a place where the sound box is actually used, such as a living room, kitchen, or conference room.

하지만, 본 발명을 실현함에 있어서, 현장 테스트 방식은 외부 간섭 요소의 제한을 받게 되는데, 예를 들어 고속도로, 콜타르 도로, 아스팔트 길, 비 오는 날 등 장면에서 장기간 동안 테스트할 수 없다. 따라서 인력이 소모되고 테스트 효율도 낮다. 또한, 최적화 결과도 신뢰성이 떨어진다. 예를 들어, 특정 장면에 대한 인실율이 낮아, 전단 신호 처리와 음성 엔진 트레이닝 및 최적화를 거친 후 재 검증이 필요되는데, 각 테스트 요원이 매번 발음할 때 똑같게 발음하기가 어려워, 최적화 전 및 최적화 후의 결과의 차의가 최적화로 인한 것인지, 아니면 테스트 요원의 발음 상태의 차이로 인한 것인지 확정하기 어려웠다.However, in realizing the present invention, the field test method is limited by external interference factors, and for example, it cannot be tested for a long time in scenes such as highways, coal tar roads, asphalt roads, and rainy days. Therefore, manpower is consumed and test efficiency is low. In addition, the reliability of the optimization result is also poor. For example, because the occupancy rate for a specific scene is low, it is necessary to re-verify after undergoing front-end signal processing and speech engine training and optimization.It is difficult for each test staff to pronounce the same pronunciation each time. It was difficult to determine whether the difference in the results was due to optimization or the difference in pronunciation of the test personnel.

이러한 점을 감안하여, 본 발명은 오디오 인식 방법 및 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다. 여기서, 상기 방법은, 녹음하여 얻은 제1 오디오 신호를 취득하는 것, 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제 1 필터링 계수에 따라, 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하는 것, 및 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것을 포함한다.In view of this, the present invention provides an audio recognition method and apparatus, electronic equipment, a computer-readable storage medium, and a computer program. Here, the method includes acquiring a first audio signal obtained by recording, a first frequency response of sound obtained by reproducing a calibration signal by a first audio reproduction device, and a first filtering calculated from the frequency response of the calibration signal And acquiring a second audio signal by processing the first audio signal according to the coefficient, and recognizing a sound obtained by reproducing the second audio signal using the first audio reproducing device.

도1은 본 발명의 실시 예에 따른 오디오 인식 방법 및 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램이 응용될 수 있는 예시적인 응용 장면을 개략적으로 나타낸다.1 schematically shows an exemplary application scene to which an audio recognition method and apparatus, electronic equipment, a computer-readable storage medium, and a computer program according to an embodiment of the present invention can be applied.

지적해두어야 할 것은, 도1에 도시된 것은 단지 본 발명의 실시 예가 응용될 수 있는 응용 장면의 예시일 뿐, 당업자가 본 발명에 개시된 기술내용을 쉽게 이해할 수 있도록 하기 위한 것이고, 본 발명의 실시 예가 다른 장비, 시스템, 환경 또는 장면에 응용되지 못한다는 것을 의미하지는 않는다. 예를 들어, 오디오 인식 방법 및 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램의 예시적인 응용 장면은 가정에서 스마트 사운드 박스를 테스트하는 장면일 수 있다.It should be pointed out that what is shown in FIG. 1 is merely an example of an application scene to which an embodiment of the present invention can be applied, and is intended to enable a person skilled in the art to easily understand the technical content disclosed in the present invention. It does not imply that the examples are not applicable to other equipment, systems, environments or scenes. For example, exemplary application scenes of audio recognition methods and devices, electronic equipment, computer-readable storage media, and computer programs may be scenes of testing a smart sound box at home.

도1에 도시된 바와 같이, 응용 장면(100)에서, 교통 수단(110)에는 전자 장비(120) 및 오디오 재생 장비(130)가 내장되어 있다.As shown in Fig. 1, in the application scene 100, the electronic equipment 120 and the audio reproduction equipment 130 are embedded in the transportation means 110.

교통 수단(110), 전자 장비(120) 및 오디오 재생 장비(130)는 서로네트워크를 통해 통신 연결될 수 있다. 네트워크는 예를 들어, 유선 및/또는 무선 통신 링크 등과 같은 다양한 연결 형태를 포함할 수 있다.The transportation means 110, the electronic equipment 120, and the audio reproduction equipment 130 may be communicatively connected to each other through a network. The network may include various connection types such as, for example, wired and/or wireless communication links.

본 발명의 실시 예에 따르면, 음성 인식 시스템은 교통 수단(110) 또는 전자 장비(120)에 설치될 수 있고, 녹음완료된 오디오 파일은 전자 장비(120)에 저장될 수 있으며, 전자 장비(120)에는 오디오 재생 프로그램이 설치되어, 장면에 따라 오디오 재생 장비(130)를 제어하여 부동한 오디오 파일을 재생하도록 정의할 수 있으며, 오디오 파일에는 사람 목소리, 노이즈 등이 포함될 수 있다. 음성 인식 시스템은 재생된 소리를 인식하여, 인식 결과를 출력할 수 있고, 전자 장비(120)를 통해 인식 결과의 정확성을 검증할 수 있다.According to an embodiment of the present invention, the voice recognition system may be installed in the transportation means 110 or the electronic equipment 120, and the recorded audio file may be stored in the electronic equipment 120, and the electronic equipment 120 An audio reproducing program is installed in the device, and the audio reproducing device 130 may be controlled to play different audio files according to scenes, and the audio files may include human voices, noise, and the like. The speech recognition system may recognize the reproduced sound, output a recognition result, and verify the accuracy of the recognition result through the electronic device 120.

교통 수단(110), 전자 장비(120) 및 오디오 재생 장비(130)가 서로 네트워크를 통해 통신 연결된 후, 전자 장비(120)는 녹음하여 얻은 오디오 신호를 필터링 처리하여 얻은 오디오 신호를 오디오 재생 장비(130)로 송신할 수 있고, 오디오 재생 장비(130)는 라디오 방송을 통해 교통 수단(110) 또는 전자 장비(120)로 하여금 음성 인식 시스템을 작동시켜 음성 인식을 진행하도록 통지할 수 있고, 음성 인식 시스템이 작동된 후, 오디오 재생 장비(130)는 테스트할 인식 단어를 재생하기 시작하며, 인식 단어를 일정한 시간동안 재생한 후, 다시 라디오 방송을 통해 음성 인식을 종료하도록 통지하고, 이번 인식 결과를 통계할 수 있다. 이어서, 그 다음 것을 재생한다. 이와 같이, 필요한 장면들을 모두 재생완료할 때까지 상기 동작을 반복한다.After the means of transportation 110, the electronic equipment 120, and the audio reproduction equipment 130 are connected to each other through a network, the electronic equipment 120 filters the audio signal obtained by recording and converts the obtained audio signal to the audio reproduction equipment ( 130), and the audio playback equipment 130 may notify the transportation means 110 or the electronic equipment 120 to operate the voice recognition system to proceed with voice recognition through radio broadcasting, and voice recognition After the system is operated, the audio reproducing equipment 130 starts to play the recognized word to be tested, and after playing the recognized word for a certain period of time, it notifies to end the speech recognition through radio broadcasting again, and notifies the result of this recognition. Statistics can be done. Then, play the next one. In this way, the above operation is repeated until all necessary scenes are reproduced.

본 발명의 일 실시 예에 따르면, 한번 녹음으로 여러번의 검증 및 최적화를 진행할 수 있는 효과를 얻을 수 있다. 교통 수단(110)이 정지되어 있는 상태에서 다양한 장면에서의 음성 인식율을 검증할 수 있고, 출력 전력 또한 안정적으로 제어가능하므로, 매번 최적화 결과에 대한 검증을 자동적으로 완성할 수 있어, 인력이 절약될뿐만 아니라, 검증 결과의 신뢰성도 높다.According to an embodiment of the present invention, it is possible to obtain an effect of performing multiple verification and optimization with one recording. Since the voice recognition rate in various scenes can be verified while the transportation means 110 is stopped, and the output power can also be stably controlled, the verification of the optimization result can be automatically completed each time, saving manpower. In addition, the reliability of the verification results is high.

교통 수단(110)은 자동차, 비행기 등 음성 인식 시스템이 구비된 다양한 교통 수단을 포함할 수 있는데, 이에 한정되지는 않는다.The transportation means 110 may include a variety of transportation means equipped with a voice recognition system, such as a car and an airplane, but is not limited thereto.

전자 장비(120)는 스마트 폰, 테블릿, 랩탑 컴퓨터 등 스크린이 구비된 다양한 전자 장비를 포함할 수 있는데, 이에 한정되지는 않는다.The electronic equipment 120 may include various electronic equipment including a screen such as a smart phone, a tablet, and a laptop computer, but is not limited thereto.

오디오 재생 장비(130)는 인공 입, 사운드 박스 등 재생 기능이 구비된 다양한 재생 장비를 포함할 수 있는데, 이에 한정되지는 않는다.The audio reproduction equipment 130 may include various reproduction equipment equipped with a reproduction function, such as an artificial mouth and a sound box, but is not limited thereto.

설명해두어야 할 것은, 본 발명의 실시 예에 따른 오디오 인식 방법은 일반적으로 전자 장비(120)에 의해 실행될 수 있다. 이에 대응하여, 본 발명의 실시 예에 따른 오디오 인식 장치는 전자 장비(120)에 설치될 수 있다.It should be explained that, in general, the audio recognition method according to an embodiment of the present invention may be executed by the electronic device 120. Correspondingly, the audio recognition device according to an embodiment of the present invention may be installed in the electronic device 120.

또한, 본 발명의 실시 예에 따른 오디오 인식 방법은 교통 수단(110) 및 전자 장비(120)에 의해 공동으로 실행될 수도 있다. 이에 대응하여, 본 발명의 실시 예에 따른 오디오 인식 장치는 교통 수단(110) 및 전자 장비(120)에 설치될 수도 있다. 예를 들어, 전자 장비(120)는 녹음하여 얻은 제1 오디오 신호를 취득하고, 제 1 필터링 계수에 따라 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 얻고, 교통 수단(110)은 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.In addition, the audio recognition method according to an embodiment of the present invention may be jointly executed by the transportation means 110 and the electronic equipment 120. Correspondingly, the audio recognition apparatus according to an embodiment of the present invention may be installed in the transportation means 110 and the electronic equipment 120. For example, the electronic equipment 120 acquires a first audio signal obtained by recording, processes the first audio signal according to a first filtering coefficient to obtain a second audio signal, and the transportation means 110 The sound obtained by reproducing the second audio signal using a reproduction device is recognized.

또한, 본 발명의 실시 예에 따른 오디오 인식 방법은 교통 수단(110)에 의해 실행될 수도 있다. 이에 대응하여, 본 발명의 실시 예에 따른 오디오 인식 장치는 교통 수단(110)에 설치될 수도 있다. 예를 들어, 교통 수단(110)은 녹음하여 얻은 제1 오디오 신호를 취득하고, 제 1 필터링 계수에 따라 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 얻고, 교통 수단(110)은 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.In addition, the audio recognition method according to an embodiment of the present invention may be executed by the transportation means 110. Correspondingly, the audio recognition apparatus according to an embodiment of the present invention may be installed in the transportation means 110. For example, the transportation means 110 acquires a first audio signal obtained by recording, processes the first audio signal according to a first filtering coefficient to obtain a second audio signal, and the transportation means 110 obtains a first audio signal. The sound obtained by reproducing the second audio signal using a reproduction device is recognized.

도1의 교통 수단(110), 전자 장비(120) 및 오디오 재생 장비(130)의 수는 단지 예시적인 것에 불과한다는 점을 이해할 수 있을 것이다. 실제 수요에 따라, 임의의 수량일 수 있다.It will be appreciated that the number of means of transportation 110, electronic equipment 120, and audio reproduction equipment 130 in FIG. 1 are exemplary only. Depending on the actual demand, it can be any quantity.

본 발명의 다른 일 실시 예에 따르면, 상기 응용 장면에는 교통 수단(110)이 포함되지 않을 수도 있는데, 음성 인식 시스템을 우선 전자 장비(120)에 설치하고, 테스트가 완료된 후 다시 교통 수단(110)에 설치할 수 있다. 본 발명의 실시 예에 따르면, 음성 인식 시스템은 음성을 통해 교통 수단을 제어하는데 사용될 수 있고, 사용자는 음성 명령을 통해 교통 수단을 제어할 수 있다. 예를 들어, 운전자는 운전중 음성 명령을 통해 네비게이션을 설정하거나 또는 주파수를 변경할 수 있으므로, 중앙 콘솔을 보면서 수동으로 조작할 필요가 없게 된다. 이렇게 되면, 운전자의 손을 해방시킬 수 있는 한편, 운전자가 중앙 콘솔을 보면서 수동으로 조작할 필요가 없어 운전중 주의력을 분산시키지 않으므로, 운전의 안전성을 향상시킬 수 있다.According to another embodiment of the present invention, the transportation means 110 may not be included in the application scene, but the voice recognition system is first installed on the electronic equipment 120, and the transportation means 110 is again after the test is completed. Can be installed on. According to an embodiment of the present invention, the voice recognition system can be used to control the transportation means through voice, and the user can control the transportation means through voice commands. For example, since the driver can set the navigation or change the frequency through voice commands while driving, there is no need to manipulate it manually while looking at the central console. In this case, while the driver's hand can be released, the driver does not need to manually operate while looking at the central console, and thus does not distract attention while driving, thereby improving driving safety.

도2는 본 발명의 실시 예에 따른 오디오 인식 방법의 흐름도를 개략적으로 나타낸다.2 is a schematic flowchart of an audio recognition method according to an embodiment of the present invention.

도2에 도시된 바와 같이, 오디오 인식 방법은 동작(S210) ~ 동작(S230)을 포함한다.As shown in FIG. 2, the audio recognition method includes operations S210 to S230.

동작(S210)에서는, 녹음하여 얻은 제1 오디오 신호를 취득한다.In operation S210, a first audio signal obtained by recording is acquired.

동작(S220)에서는, 제 1 필터링 계수에 따라 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득한다. 여기서, 제1 필터링 계수는 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 캘리브레이션 신호의 주파수 응답으로부터 산출된 것이다.In operation S220, a second audio signal is obtained by processing the first audio signal according to the first filtering coefficient. Here, the first filtering coefficient is calculated from the first frequency response of the sound obtained by reproducing the calibration signal by the first audio reproduction device and the frequency response of the calibration signal.

동작(S230)에서는, 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.In operation S230, the sound obtained by reproducing the second audio signal using the first audio reproducing device is recognized.

본 발명의 실시 예에 따르면, 사용자의 음성을 녹음할 수 있다. 예를 들어, 주파수 응답 곡선이 평탄한 고정밀도 테스트 마이크를 이용하여 방음실에서 사람 목소리를 수집함으로써, 사용자의 음성이 깨끗하고, 노이즈가 없고, 메아리가 없도록 보장할 수 있다. 각 오디오 파일은 음성 내용으로 명명할 수 있다. 예를 들어, 음성의 오디오 내용이 "날씨는 어떠세요?"일 경우, 오디오 파일명은 "날씨는 어떠세요?"로 명명할 수 있다.According to an embodiment of the present invention, it is possible to record a user's voice. For example, by collecting human voices in a soundproof room using a high-precision test microphone with a flat frequency response curve, it is possible to ensure that the user's voice is clean, no noise, and no echo. Each audio file can be named by its audio content. For example, if the audio content of the voice is "How is the weather?", the audio file name may be named "How is the weather?".

본 발명의 실시 예에 따르면, 녹음하여 얻은 제1 오디오 신호는 서로 다른 테스트 장면에 필요되는 오디오 신호일 수 있다. 본 발명의 실시 예에 따르면, 오디오 인식 방법을 차량 탑재 음성 테스트 장면에 응용되는 것을 예로 들면, 제1 오디오 신호는 차량이 제공할 수 있는 동작 기능의 명령일 수 있고, 예를 들어, 차량이 제공할 수 있는 동작 기능의 명령은 지도 검색 명령, 에어컨 턴온 명령, 뮤직 방송 명령, 차창 오픈 명령 등을 포함할 수 있다.According to an embodiment of the present invention, the first audio signal obtained by recording may be an audio signal required for different test scenes. According to an embodiment of the present invention, for example, when the audio recognition method is applied to a vehicle-mounted voice test scene, the first audio signal may be a command of an operation function that can be provided by the vehicle, for example, the vehicle provides Commands for operation functions that can be performed may include a map search command, an air conditioner turn-on command, a music broadcast command, a car window open command, and the like.

본 발명의 실시 예에 따르면, 제1 오디오 재생 장비의 유형은 인공 입, 사운드 박스 등을 포함할 수 있는데, 이에 한정되지는 않는다. 서로 다른 유형의 오디오 재생 장비의 주파수 응답은 서로 다르다. 예를 들어, 인공 입과 사운드 박스의 주파수 응답은 서로 다르다. 또한, 동일한 유형의 서로 다른 오디오 재생 장비의 주파수 응답도 서로 다를 수 있다. 주파수 응답은 주파수 응답 곡선을 통해 표현할 수 있다.According to an embodiment of the present invention, the type of the first audio reproduction device may include an artificial mouth, a sound box, and the like, but is not limited thereto. Different types of audio reproduction equipment have different frequency responses. For example, the frequency response of the artificial mouth and the sound box is different. Also, the frequency response of different audio reproduction equipment of the same type may be different. The frequency response can be expressed through the frequency response curve.

본 발명의 실시 예에 따르면, 제1 필터링 계수는 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 캘리브레이션 신호의 주파수 응답으로부터 산출한 것이다. 캘리브레이션 신호는 주파수 응답 곡선이 평탄한 화이트 노이즈를 사용할 수 있다.According to an embodiment of the present invention, the first filtering coefficient is calculated from the first frequency response of the sound obtained by reproducing the calibration signal by the first audio reproduction device and the frequency response of the calibration signal. White noise with a flat frequency response curve can be used for the calibration signal.

본 발명의 실시 예에 따르면, 캘리브레이션 신호로서 화이트 노이즈를 사용하는 것은 단지 예시적인 실시 예일 뿐, 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 공지된 다른 캘리브레이션 신호를 포함할 수도 있다.According to an embodiment of the present invention, the use of white noise as a calibration signal is only an exemplary embodiment, and is not limited thereto, and may include other calibration signals known in the art.

본 발명의 실시 예에 따르면, 제 1 필터링 계수에 따라 제 1 오디오 신호를 처리하는 것은, 제1 필터링 계수를 이용하여 제1 오디오 신호가 서로 다른 소정 주파수 대역에서 대응하는 오디오 신호를 필터링하거나 증폭함으로써, 얻은 제2 오디오 신호가 녹음하여 얻은 제1 오디오 신호와 서로 다르게 하는 것일 수 있다. 오디오 신호를 재생하는 인공 입, 사운드 박스 등은 자체의 특정 주파수 응답 곡선을 가지고 있으므로, 오디오 신호는 이러한 장비에 의해 재생된 후 원래 녹음할 때와 다르게 된다. 오디오 재생 장비의 주파수 응답 곡선에 따라, 녹음하여 얻은 오디오 신호에 대해 미리 역방향으로 조정하여, 재생 장비에 의해 재생된 소리가 녹음 시의 주파수 응답 곡선과 일치하도록 함으로써, 오디오를 재현하는 기술적 효과를 달성할 수 있다.According to an embodiment of the present invention, processing the first audio signal according to the first filtering coefficient may be performed by filtering or amplifying a corresponding audio signal in a predetermined frequency band different from the first audio signal using the first filtering coefficient. , The obtained second audio signal may be different from the first audio signal obtained by recording. The artificial mouth, sound box, etc. that reproduce the audio signal have their own specific frequency response curve, so the audio signal will be different from the original recording after being reproduced by such equipment. According to the frequency response curve of the audio reproduction equipment, the audio signal obtained by recording is adjusted in the reverse direction in advance so that the sound reproduced by the reproduction equipment matches the frequency response curve at the time of recording, thereby achieving the technical effect of reproducing the audio. can do.

본 발명의 실시 예에 따르면, 제 2 오디오 신호를 얻은 후, 제2 오디오 신호를 제1 오디오 재생 장비로 송신하여 재생할 수 있고, 제1 오디오 재생 장비가 제2 오디오 신호를 재생하는 과정에, 음성 인식 시스템을 이용하여 재생한 소리를 인식할 수 있다.According to an embodiment of the present invention, after obtaining the second audio signal, the second audio signal may be transmitted to the first audio reproducing device and reproduced. In the process of the first audio reproducing device reproducing the second audio signal, voice The reproduced sound can be recognized using the recognition system.

도3은 본 발명의 실시 예에 따른 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 흐름도를 개략적으로 나타낸다.3 schematically shows a flowchart of recognizing sound obtained by reproducing a second audio signal using a first audio reproducing device according to an embodiment of the present invention.

도3에 도시된 바와 같이, 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것은, 동작(S310) ~ 동작(S320)을 포함한다.As shown in FIG. 3, recognizing the sound obtained by reproducing the second audio signal using the first audio reproduction device includes operations S310 to S320.

동작(S310)에서는, 음성 인식 기능을 작동시킨다.In operation S310, the voice recognition function is operated.

동작(S320)에서는, 음성 인식 기능에 기반하여, 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.In operation S320, the sound obtained by reproducing the second audio signal is recognized based on the voice recognition function.

본 발명의 실시 예에 따르면, 제2 오디오 신호를 재생하여 얻은 소리를 인식한 후, 인식 결과를 출력하고, 인식 결과의 정확성을 검증할 수 있다.According to an embodiment of the present invention, after recognizing the sound obtained by reproducing the second audio signal, the recognition result may be output and the accuracy of the recognition result may be verified.

본 발명의 실시 예에 따르면, 하나의 백그라운드 프로세스를 작동하여 음성 로그를 계속 모니터링하고, 매번 인식결과를 얻은 후, 음성 인식 시스템은 로그를 프린트하고, 로그와 재생된 오디오 파일명을 비교하여, 일치할 경우, 성공적으로 인식된 것으로 판단한다. 오디오 파일명은 오디오 내용일 수 있다.According to an embodiment of the present invention, one background process is operated to continuously monitor the voice log, and after each recognition result is obtained, the voice recognition system prints the log, compares the log and the reproduced audio file name, and matches. If so, it is judged that it has been successfully recognized. The audio file name may be audio content.

본 발명의 실시 예에 따르면, 인식 결과의 정확성을 검증하는 것은, 인식 결과와 제1 오디오 신호의 오디오 내용을 비교하는 것, 인식 결과가 제1 오디오 신호의 오디오 내용과 일치할 경우, 인식 결과가 정확하다고 확정하는 것, 및 인식 결과가 제1 오디오 신호의 오디오 내용과 일치하지 않을 경우, 인식 결과에 오류가 있다고 확정하는 것을 포함한다.According to an embodiment of the present invention, verifying the accuracy of the recognition result is comparing the recognition result with the audio content of the first audio signal, and when the recognition result matches the audio content of the first audio signal, the recognition result is And determining that the recognition result is correct, and when the recognition result does not match the audio content of the first audio signal, determining that there is an error in the recognition result.

본 발명의 실시 예에 따르면, 예를 들어, 제2 오디오 신호를 재생하여 얻은 소리를 인식한 후, 출력된 인식 결과가 "공기는 어떠세요"일 때, 제1 오디오 신호에 대응하는 오디오 내용이 "공기는 어떠세요"이면, 인식 결과가 제1 오디오 신호의 오디오 내용과 일치하므로, 인식 결과가 정확하다고 확정한다. 만약 제1 오디오 신호에 대응하는 오디오 내용이 "날씨는 어떠세요"이면, 인식 결과가 제1 오디오 신호의 오디오 내용과 일치하지 않으므로, 인식 결과에 오류가 있다고 확정한다.According to an embodiment of the present invention, for example, after recognizing the sound obtained by reproducing the second audio signal, when the output recognition result is "how about the air", the audio content corresponding to the first audio signal is " How is the air", since the recognition result matches the audio content of the first audio signal, it is determined that the recognition result is correct. If the audio content corresponding to the first audio signal is "how is the weather", since the recognition result does not match the audio content of the first audio signal, it is determined that there is an error in the recognition result.

도4는 본 발명의 다른 일 실시 예에 따른 오디오 인식 방법의 흐름도를 개략적으로 나타낸다.4 is a schematic flowchart of an audio recognition method according to another embodiment of the present invention.

본 발명의 실시 예에 따르면, 제1 오디오 신호는 복수개이고, 각 제1 오디오 신호는 제1 필터링 계수에 따라 처리된 후, 하나의 제2 오디오 신호를 얻을 수 있다. 본 발명의 실시 예에 따르면, 한 마디의 인식 음성은 하나의 제1 오디오 신호로 간주 할 수 있다.According to an embodiment of the present invention, there are a plurality of first audio signals, and after each first audio signal is processed according to the first filtering coefficient, one second audio signal may be obtained. According to an embodiment of the present invention, a recognized speech of one word may be regarded as one first audio signal.

도4에 도시된 바와 같이, 상기 방법은 동작(S410) ~ 동작(S430)을 포함한다.As shown in Figure 4, the method includes operations (S410) to (S430).

동작(S410)에서는, 녹음하여 얻은 복수의 제1 오디오 신호를 취득한다.In operation S410, a plurality of first audio signals obtained by recording are acquired.

동작(S420)에서는, 제 1 필터링 계수에 따라 각 제 1 오디오 신호를 처리하여, 복수의 제 2 오디오 신호를 얻는다.In operation S420, each first audio signal is processed according to the first filtering coefficient to obtain a plurality of second audio signals.

동작(S430)에서는, 제1 오디오 재생 장비를 이용하여 소정의 시간 간격으로 각 제2 오디오 신호를 재생하여 얻은 소리를 각각 인식한다.In operation S430, sounds obtained by reproducing each second audio signal at predetermined time intervals using the first audio reproducing device are respectively recognized.

본 발명의 실시 예에 따르면, 소정의 시간 간격은 예를 들어, 5초, 7초 등일 수 있다. 음성 인식 시스템이 작동한 후, 테스트할 대응하는 인식 단어를 재생하기 시작하고, 재생 후의 소정의 시간 간격동안 인식하고 이번의 인식 결과를 통계한다. 이어서, 그 다음 것을 재생한다. 이와 같이 필요한 모든 장면을 재생완료할 때까지 이렇게 실행한다.According to an embodiment of the present invention, the predetermined time interval may be, for example, 5 seconds, 7 seconds, or the like. After the speech recognition system operates, it starts to play the corresponding recognized word to be tested, recognizes it for a predetermined time interval after the play, and calculates the current recognition result. Then, play the next one. Do this until all the necessary scenes are played back.

본 발명의 실시 예에 따르면, 소리를 각각 인식할 때, 입력된 음성 신호에 대해 프리 엠퍼시스, 프레이밍 및 윈도잉, 브레이크 포인트 검출, 노이즈 감소 동작을 실행할 수 있다. 그 다음, 특징들을 추출하는데, 일반적인 특징 파라미터에는 시간 영역에 기반한 진폭 및 에너지, 및 주파수 영역에 기반한 LPCC (Linear Prediction Cepstrum Coefficient), MFCC(Mel Frequency Cepstrum Coefficient) 등이 포함된다. 마지막으로, 인식 결과를 정확한 결과와 매칭하여, 검증 결과를 얻는다.According to an embodiment of the present invention, when each sound is recognized, pre-emphasis, framing and windowing, breakpoint detection, and noise reduction operations may be performed on an input voice signal. Next, features are extracted, and general feature parameters include amplitude and energy based on time domain, Linear Prediction Cepstrum Coefficient (LPCC) and Mel Frequency Cepstrum Coefficient (MFCC) based on frequency domain. Finally, the recognition result is matched with the correct result to obtain a verification result.

본 발명의 실시 예에 따르면, 녹음하여 얻은 제1 오디오 신호는 서로 다른 장면에서의 테스트 음성일 수 있으므로, 현장 테스트를 할 필요가 없고, 외부 간섭 요소에 제한되는 것을 피하여, 테스트 효율을 향상시킬 수 있다. 또한,제1 오디오 재생 장비는 제2 오디오 신호를 반복적으로 재생할 수 있으므로, 음성 인식 시스템의 최적화 전과 최적화 후의 차이는 최적화로 인한 것임을 알 수 있고, 테스트 요원의 발음 상태가 다름으로 인해 최적화 결과가 달라지는 문제는 존재하지 않는다. 다양한 장면에서의 음성 인식율을 검증할 수 있고, 사람 목소리를 완벽하게 재현할 수 있으며, 출력 전력을 안정적으로 제어가능하여, 매번 최적화 결과에 대한 검증을 자동적으로 완성할 수 있게 되어, 인력을 절약할 수 있고, 검증 결과의 신뢰성 또한 높다.According to an embodiment of the present invention, since the first audio signal obtained by recording may be a test voice in different scenes, there is no need to perform a field test, and it is possible to improve test efficiency by avoiding being limited to external interference factors. have. In addition, since the first audio reproducing equipment can repeatedly reproduce the second audio signal, it can be seen that the difference between before and after the optimization of the speech recognition system is due to optimization. The problem doesn't exist. The voice recognition rate in various scenes can be verified, the human voice can be perfectly reproduced, and the output power can be stably controlled, so that the verification of the optimization result can be automatically completed every time, saving manpower. And the reliability of the verification result is also high.

음성 인식 과정에서는, 통상적으로 음성 인식에 대한 다른 음원 또는 환경 노이즈의 영향을 고려하여야 한다. 예를 들어, 차량 탑재 음성은 다양한 응용 장면을 고려해야 하고, 서로 다른 노이즈 소스는 서로 다른 정도로 음성 인식율에 지장을 주게 된다. 음성 테스트 최적화의 효율을 향상시키고, 인력 투입을 감소시키고, 테스트 결과의 신뢰성 및 최적화 결과의 신뢰성을 향상시키기 위해서는, 다양한 노이즈 환경에서 음성을 인식할 수 있다.In the speech recognition process, it is necessary to consider the influence of other sound sources or environmental noise on speech recognition. For example, in-vehicle voice has to consider various application scenes, and different noise sources interfere with the voice recognition rate to different degrees. In order to improve the efficiency of voice test optimization, reduce manpower input, and improve the reliability of test results and optimization results, voice can be recognized in various noise environments.

본 발명의 실시 예에 따르면, 녹음하여 얻은 제3 오디오 신호를 취득하고, 제2 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제2 주파수 응답 및 캘리브레이션 신호의 주파수 응답으로부터 산출한 제2 필터링 계수에 따라, 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득하고, 제1 오디오 재생 장비를 이용하여 제2 오디오 신호를 재생함과 동시에, 제2 오디오 재생 장비를 이용하여 제4 오디오 신호를 재생하는 과정에, 제2 오디오 신호를 재생하여 얻은 소리를 인식할 수 있다.According to an embodiment of the present invention, a third audio signal obtained by recording is acquired, and a second frequency response of the sound obtained by reproducing a calibration signal by a second audio reproduction device and a second filtering calculated from the frequency response of the calibration signal According to the coefficient, the third audio signal is processed to obtain a fourth audio signal, and the second audio signal is reproduced using the first audio reproducing equipment, and the fourth audio signal is reproduced using the second audio reproducing equipment. In the process of reproducing, sound obtained by reproducing the second audio signal may be recognized.

본 발명의 실시 예에 따르면, 제3 오디오 신호는 다른 사용자의 소리일 수 있고, 노이즈일 수도 있다.According to an embodiment of the present invention, the third audio signal may be a sound of another user or may be noise.

본 발명의 실시 예에 따르면, 구체적으로, 제1 오디오 신호는 사람 목소리 오디오 신호를 포함하고, 제3 오디오 신호는 노이즈 오디오 신호를 포함한다.According to an embodiment of the present invention, specifically, the first audio signal includes a human voice audio signal, and the third audio signal includes a noise audio signal.

본 발명의 실시 예에 따르면, 예를 들어, 인공 입을 이용하여 사람 목소리 오디오 신호를 재생하는 과정에, 사운드 박스를 이용하여 노이즈을 재생할 수 있고, 이때 음성 인식 시스템을 이용하여 노이즈이 섞인 사람 목소리를 인식할 수 있다.According to an embodiment of the present invention, for example, in the process of reproducing a human voice audio signal using an artificial mouth, noise may be reproduced using a sound box, and at this time, a human voice mixed with noise may be recognized using a voice recognition system. I can.

본 발명의 실시 예에 따르면, 노이즈의 유형에 대해 한정하지 않으며, 다양한 유형의 노이즈을 사전에 녹음할 수 있다. 예를 들어, 주파수 응답 곡선이 평탄한 고정밀도 테스트 마이크를 이용하여, 예를 들어, 차창 닫김-저속-에어컨 작동 없음, 또는 차창 열림-고속-콜타르 도로 등 장면의 노이즈와 같은 차량이 정지, 이동중의 각 장면의 노이즈를 수집할 수 있다.According to an embodiment of the present invention, the type of noise is not limited, and various types of noise may be recorded in advance. For example, by using a high-precision test microphone with a flat frequency response curve, for example, a car window closed-low speed-no air conditioner operation, or a car window open-high speed-coal tar road, etc. You can collect the noise of each scene.

본 발명의 실시 예에 따르면, 제 1 필터링 계수에 따라 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하는 것은, 제 1 필터링 계수를 이용하여 제1 오디오 신호의 주파수 스펙트럼을 조정하여, 제2 오디오 신호를 취득하는 것을 포함한다.According to an embodiment of the present invention, obtaining the second audio signal by processing the first audio signal according to the first filtering coefficient includes adjusting the frequency spectrum of the first audio signal using the first filtering coefficient, It involves acquiring an audio signal.

본 발명의 실시 예에 따르면, 제2 필터링 계수에 따라 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득하는 것은, 제2 필터링 계수를 이용하여 제3 오디오 신호의 주파수 스펙트럼을 조정하여, 제4 오디오 신호를 취득하는 것을 포함한다.According to an embodiment of the present invention, obtaining the fourth audio signal by processing the third audio signal according to the second filtering coefficient is performed by adjusting the frequency spectrum of the third audio signal using the second filtering coefficient. It involves acquiring an audio signal.

본 발명의 실시 예에 따르면, 필터링 계수를 이용하여 오디오 신호의 주파수 스펙트럼을 조정하는 것은 단지 예시적인 실시 예일 뿐, 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 공지된 필터링 계수를 이용하여 오디오 신호를 처리하는 다른 방벙을 포함할 수도 있으며, 처리후의 오디오 신호가 오디오 재생 장비에 의해 재생되어 얻은 소리가 녹음하여 얻은 소리이도록 할 수 있기만 하면 된다. 즉, 소리를 복원할 수 있는 효과를 달성할 수 있으면 된다.According to an embodiment of the present invention, adjusting the frequency spectrum of an audio signal using a filtering coefficient is only an exemplary embodiment, and is not limited thereto, and an audio signal using filtering coefficients known in the art. Other methods of processing the signal may be included, as long as the audio signal after processing can be reproduced by the audio playback equipment so that the sound obtained is the sound obtained by recording. In other words, it only needs to be able to achieve an effect that can restore the sound.

도5는 본 발명의 실시 예에 따른 인공 입을 통해 필터링 계수에 따른 처리를 거치지 않은 캘리브레이션 신호를 재생한 주파수 스펙트럼을 개략적으로 나타낸다.5 schematically shows a frequency spectrum obtained by reproducing a calibration signal that has not been processed according to a filtering coefficient through an artificial mouth according to an embodiment of the present invention.

최초 캘리브레이션 신호가 주파수 응답 곡선이 평탄한 화이트 노이즈일 경우, 도5에 도시된 바와 같이, 인공 입이 실제로 출력한 신호는 인공 입 자체의 주파수 응답의 영향을 받게 된다. 도5로부터 알 수 있는 바와 같이, 인공 입을 통해 재생된 신호는 마치 중주파가 증강되고 고주파가 분실된 필터를 통과한 것과 같아, 이러한 신호가 음성 인식 시스템으로 송신되면 인실율이 낮아지고, 이로 인해 테스트의 정확성을 보장할 수 없게 된다.When the initial calibration signal is white noise with a flat frequency response curve, as shown in FIG. 5, the signal actually output by the artificial mouth is affected by the frequency response of the artificial mouth itself. As can be seen from Fig. 5, the signal reproduced through the artificial mouth is as if the medium frequency is augmented and the high frequency is passed through a filter that has been lost.When these signals are transmitted to the speech recognition system, the occupancy rate is lowered, and thus the test It will not be possible to guarantee the accuracy of the.

본 발명을 실현함에 있어서, 오디오 신호를 재생하는 인공 입, 사운드 박스 등이 자체의 특정 주파수 응답 곡선을 가지므로, 오디오 신호가 이러한 장비에 의해 재생된 후 원래 녹음할 때와 다르게 되는 점을 감안하여, 오디오 재생 장비의 주파수 응답 곡선에 따라, 녹음하여 얻은 오디오 신호에 대해 미리 역방향으로 조정하여, 재생 장비에 의해 재생된 소리가 녹음 시의 주파수 응답 곡선과 일치하도록 함으로써, 오디오를 재현하는 기술적 효과를 달성할 수 있다.In realizing the present invention, in consideration of the fact that the artificial mouth, sound box, etc. that reproduce the audio signal have their own specific frequency response curve, the audio signal becomes different from the original recording after being reproduced by such equipment. , According to the frequency response curve of the audio reproduction equipment, the audio signal obtained by recording is adjusted in the reverse direction in advance, so that the sound reproduced by the reproduction equipment coincides with the frequency response curve at the time of recording. Can be achieved.

도6은 본 발명의 실시 예에 따른 인공 입을 통해 필터링 계수에 따른 처리를 거친 캘리브레이션 신호를 재생한 주파수 스펙트럼을 개략적으로 나타낸다.6 schematically shows a frequency spectrum obtained by reproducing a calibration signal processed according to filtering coefficients through an artificial mouth according to an embodiment of the present invention.

최초 캘리브레이션 신호가 주파수 응답 곡선이 평탄한 화이트 노이즈일 경우, 도6에 도시된 바와 같이, 처리를 거친 오디오 신호가 인공 입을 통해 재생된 후, 신호 곡선는 거의 평탄하므로, 녹음한 소리를 거의 완벽하게 복원할 수 있고, 인식 테스트의 정확도를 보장할 수 있으며, 사람이 귀로 들어도 실제 발음과의 차이를 느낄 수 없게 된다.If the initial calibration signal is white noise with a flat frequency response curve, as shown in Fig.6, after the processed audio signal is reproduced through the artificial mouth, the signal curve is almost flat, so that the recorded sound can be almost completely restored. In addition, the accuracy of the recognition test can be guaranteed, and even when a person listens to the ear, the difference from the actual pronunciation cannot be felt.

본 발명의 실시 예에 따르면, 제1 필터링 계수는 캘리브레이션 신호의 주파수 응답과 제1 주파수 응답의 차이에 의해 결정될 수 있고, 제2 필터링 계수는 캘리브레이션 신호의 주파수 응답과 제2 주파수 응답의 차이에 의해 결정될 수 있다.According to an embodiment of the present invention, the first filtering coefficient may be determined by a difference between the frequency response of the calibration signal and the first frequency response, and the second filtering coefficient is determined by the difference between the frequency response of the calibration signal and the second frequency response. Can be determined.

본 발명의 실시 예에 따르면, 오디오 신호의 역방향 캘리브레이션 원리는 다음과 같다. 즉, 최초 신호와 인공 입에 의해 재생된 신호의 주파수 응답간의 차이를 비교함으로써, 필터링 계수를 산출한다. 최초 신호는 주파수 응답 곡선이 평탄한 화이트 노이즈를 사용할 수 있으므로, 필터링 계수는 인공 입이 재생한 신호의 주파수 응답 곡선의 반대수 일 수 있다.According to an embodiment of the present invention, the principle of reverse calibration of an audio signal is as follows. That is, by comparing the difference between the frequency response of the original signal and the signal reproduced by the artificial mouth, the filtering coefficient is calculated. Since the initial signal may use white noise having a flat frequency response curve, the filtering coefficient may be the opposite of the frequency response curve of the signal reproduced by the artificial mouth.

본 발명의 실시 예에 따르면, 필터링 계수를 확정할 때, 처리를 거친 신호를 다시 인공 입을 통해 재생하여, 신호 곡선의 평탄여부를 판단하고, 평탄하지 않으면, 주파수 응답 곡선의 어느 부분을 보충하거나 이득(gain)을 감소시켜야 하는지 확인하고, 이렇게 각 주파수 대역의 이득을 반복적으로 조정함으로써, 최종적으로 인공 입을 통해 재생된 신호가 평탄하도록 하고, 필터링 계수를 저장할 수 있다. 예를 들어 사람 목소리와 같은 다른 평탄하지 않는 신호일 경우, 필터에 의해 처리된 후, 인공 입을 통해 재생함으로써, 정방향 및 역방향의 2차의 변화를 거쳐, 최종적으로 원래의 사람 목소리와 일치한 신호를 형성할 수 있다.According to an embodiment of the present invention, when determining the filtering coefficient, the processed signal is reproduced through the artificial mouth again to determine whether the signal curve is flat, and if it is not, a portion of the frequency response curve is supplemented or gain By checking whether (gain) should be reduced, and by repeatedly adjusting the gain of each frequency band, finally, the signal reproduced through the artificial mouth is flattened, and the filtering coefficient can be stored. For example, in the case of other uneven signals such as human voices, they are processed by a filter and then reproduced through an artificial mouth, thereby forming a signal that matches the original human voice through secondary changes in the forward and reverse directions. can do.

본 발명의 실시 예에 따르면, 검증결과, 100개의 인식 코퍼스(copus)에 대해, 실제 사람 목소리로 직접 테스트할 경우, 인식율은 98%이고, 인공 입으로 재생할 경우, 캘리브레이션 전에 인공 입으로 재생하여 테스트한 인식율은 단지 60%이지만, 캘리브레이션 후의 인식율은 오리지널 보이스에 비해 상하로 1% 변동하여 97%~99%로 되므로, 현저한 효과가 있다.According to an embodiment of the present invention, as a result of the verification, when testing 100 recognized corpuses directly with real human voices, the recognition rate is 98%, and when playing with an artificial mouth, the test is performed by playing with an artificial mouth before calibration. One recognition rate is only 60%, but the recognition rate after calibration fluctuates 1% up and down compared to the original voice to become 97% to 99%, so there is a remarkable effect.

본 발명의 실시 예에 따르면, 음성 인식 시스템은 일반적으로 사람 목소리에 대해 100 Hz 이하 및 10KHz 이상의 주파수에 대해서는 음성 인식을 실행하지 않으므로, 100 Hz 이하 및 10KHz 이상의 주파수에서는 필터링 계수를 이용하여 조정하지 않아도 된다. 본 발명의 일 실시 예에 따르면, 음성 인식 시스템이 응답하여 인식하는 주파수 대역을 확정하여, 응답하여 인식할 수 있는 주파수 대역에 대해 필터링 계수가 확정할 수 있다.According to an embodiment of the present invention, since the speech recognition system generally does not perform speech recognition for frequencies of 100 Hz or less and 10 KHz or more for human voice, it is not necessary to adjust using a filtering coefficient at frequencies below 100 Hz and 10 KHz. do. According to an embodiment of the present invention, a frequency band that the voice recognition system recognizes in response may be determined, and a filtering coefficient may be determined for a frequency band that can be recognized in response.

본 발명의 실시 예에 따르면, 제1 필터링 계수는 복수의 제1 서브 필터링 계수를 포함하고, 각 제1 서브 필터링 계수는 각각 제1 소정 주파수 대역중 대응하는 오디오 신호를 조정하고, 제2 필터링 계수는 복수의 제2 서브 필터링 계수를 포함하고, 각 제2 서브 필터링 계수는 각각 제2 소정 주파수 대역중 대응하는 오디오 신호를 조정한다.According to an embodiment of the present invention, the first filtering coefficient includes a plurality of first sub-filtering coefficients, and each of the first sub-filtering coefficients adjusts a corresponding audio signal in a first predetermined frequency band, and a second filtering coefficient Includes a plurality of second sub-filtering coefficients, and each of the second sub-filtering coefficients adjusts a corresponding audio signal in a second predetermined frequency band.

본 발명의 실시 예에 따르면, 제1 소정 주파수 대역은 복수의 제1 서브 주파수 대역을 포함하고, 각 제1 서브 주파수 대역은 대응하는 제1 서브 필터링 계수를 가지고 있으며, 제1 서브 필터링 계수는 대응하는 제1 서브 주파수 대역의 오디오 신호를 처리한다. 제2 소정 주파수 대역은 복수의 제2 서브 주파수 대역을 포함하고, 각 제2 서브 주파수 대역은 대응하는 제2 서브 필터링 계수를 가지고 있으며, 제2 서브 필터링 계수는 대응하는 제2 서브 주파수 대역의 오디오 신호를 처리한다.According to an embodiment of the present invention, the first predetermined frequency band includes a plurality of first sub-frequency bands, each first sub-frequency band has a corresponding first sub-filtering coefficient, and the first sub-filtering coefficient corresponds to The audio signal of the first sub-frequency band is processed. The second predetermined frequency band includes a plurality of second sub-frequency bands, each second sub-frequency band has a corresponding second sub-filtering coefficient, and the second sub-filtering coefficient is the audio of the corresponding second sub-frequency band. Process the signal.

본 발명의 실시 예에 따르면, 서로 다른 서브 필터링 계수를 이용하여 서로 다른 서브 주파수 대역의 오디오 신호를 처리함으로써, 지향성 있게 오디오 신호를 처리할 수 있고, 오디오 복원의 정확도를 높일 수 있고, 나아가서, 음성 인식의 정확도를 높일 수 있다.According to an embodiment of the present invention, by processing audio signals of different sub-frequency bands using different sub-filtering coefficients, audio signals can be processed directionally, and accuracy of audio restoration can be improved. The accuracy of recognition can be improved.

도7은 본 발명의 실시 예에 따른 오디오 인식 장치의 블록도를 개략적으로 나타낸다.7 is a schematic block diagram of an audio recognition apparatus according to an embodiment of the present invention.

도7에 도시된 바와 같이, 오디오 인식 장치(700)는 제1 취득 모듈(710), 제1 처리 모듈(720) 및 인식 모듈(730)을 포함한다.As shown in FIG. 7, the audio recognition apparatus 700 includes a first acquisition module 710, a first processing module 720, and a recognition module 730.

제1 취득 모듈(710)은, 녹음하여 얻은 제1 오디오 신호를 취득한다.The first acquisition module 710 acquires a first audio signal obtained by recording.

제1 처리 모듈(720)은, 제 1 필터링 계수에 따라 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득한다. 여기서, 상기 제1 필터링 계수는 제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출된 것이다.The first processing module 720 obtains a second audio signal by processing the first audio signal according to a first filtering coefficient. Here, the first filtering coefficient is calculated from a first frequency response of a sound obtained by reproducing a calibration signal by a first audio reproduction device and a frequency response of the calibration signal.

인식 모듈(730)은, 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.The recognition module 730 recognizes sound obtained by reproducing the second audio signal using the first audio reproduction device.

녹음하여 얻은 제1 오디오 신호는 서로 다른 장면에서의 테스트 음성일 수 있으므로, 현장 테스트를 할 필요가 없고, 외부 간섭 요소에 제한되는 것을 피하여, 테스트 효율을 향상시킬 수 있다. 또한,제1 오디오 재생 장비는 제2 오디오 신호를 반복적으로 재생할 수 있으므로, 음성 인식 시스템의 최적화 전과 최적화 후의 차이는 최적화로 인한 것임을 알 수 있고, 테스트 요원의 발음 상태가 다름으로 인해 최적화 결과가 달라지는 문제는 존재하지 않는다. 오디오 신호는 장비에 의해 재생된 후 원래 녹음할 때와 다르게 되므로, 오디오 재생 장비의 주파수 응답 곡선에 따라, 녹음하여 얻은 오디오 신호에 대해 미리 역방향으로 조정하여, 재생 장비에 의해 재생된 소리가 녹음 시의 주파수 응답 곡선과 일치하도록 함으로써, 오디오를 재현하는 기술적 효과를 달성할 수 있다.Since the first audio signal obtained by recording may be a test voice in different scenes, there is no need to perform a field test, and it is possible to improve test efficiency by avoiding being limited to external interference factors. In addition, since the first audio reproducing equipment can repeatedly reproduce the second audio signal, it can be seen that the difference between before and after the optimization of the speech recognition system is due to optimization. The problem doesn't exist. Since the audio signal is reproduced by the equipment and is different from the original recording, according to the frequency response curve of the audio reproduction equipment, the audio signal obtained by recording is adjusted in the reverse direction in advance, and the sound reproduced by the reproduction equipment is recorded. By matching the frequency response curve of, the technical effect of reproducing the audio can be achieved.

본 발명의 일 실시 예에 따르면, 오디오 인식 장치(700)는 제2 취득 모듈 및 제2 처리 모듈을 더 포함한다.According to an embodiment of the present invention, the audio recognition apparatus 700 further includes a second acquisition module and a second processing module.

제2 취득 모듈은, 녹음하여 얻은 제3 오디오 신호를 취득한다.The second acquisition module acquires a third audio signal obtained by recording.

제2 처리 모듈은, 제2 필터링 계수에 따라 상기 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득한다. 여기서, 제2 필터링 계수는 제2 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제2 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출된 것이다.The second processing module obtains a fourth audio signal by processing the third audio signal according to a second filtering coefficient. Here, the second filtering coefficient is calculated from the second frequency response of the sound obtained by reproducing the calibration signal by the second audio reproduction device and the frequency response of the calibration signal.

상기 인식 모듈(730)은, 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생함과 동시에 상기 제2 오디오 재생 장비를 이용하여 상기 제4 오디오 신호를 재생하는 과정에, 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.In the process of reproducing the second audio signal using the first audio reproducing device and simultaneously reproducing the fourth audio signal using the second audio reproducing device, the recognition module 730 Recognize the sound obtained by playing the audio signal.

본 발명의 실시 예에 따르면, 상기 제1 오디오 신호는 사람 목소리 오디오 신호를 포함하고, 상기 제3 오디오 신호는 노이즈 오디오 신호를 포함한다.According to an embodiment of the present invention, the first audio signal includes a human voice audio signal, and the third audio signal includes a noise audio signal.

본 발명의 실시 예에 따르면, 상기 제1 처리 모듈은, 상기 제 1 필터링 계수에 따라 상기 제1 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제2 오디오 신호를 취득한다.According to an embodiment of the present invention, the first processing module obtains the second audio signal by adjusting the frequency spectrum of the first audio signal according to the first filtering coefficient.

상기 제2 처리 모듈은, 상기 제2 필터링 계수에 따라 상기 제3 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제4 오디오 신호를 취득한다.The second processing module obtains the fourth audio signal by adjusting the frequency spectrum of the third audio signal according to the second filtering coefficient.

본 발명의 실시 예에 따르면, 상기 제1 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제1 주파수 응답의 차이에 의해 결정되고, 상기 제2 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제2 주파수 응답의 차이에 의해 결정된다.According to an embodiment of the present invention, the first filtering coefficient is determined by a difference between the frequency response of the calibration signal and the first frequency response, and the second filtering coefficient is the frequency response of the calibration signal and the second frequency. It is determined by the difference in response.

본 발명의 실시 예에 따르면, 상기 제1 필터링 계수는 복수의 제1 서브 필터링 계수를 포함하고, 각 제1 서브 필터링 계수는 각각 제1 소정 주파수 대역중 대응하는 오디오 신호를 조정하고, 상기 제2 필터링 계수는 복수의 제2 서브 필터링 계수를 포함하고, 각 제2 서브 필터링 계수는 각각 제2 소정 주파수 대역중 대응하는 오디오 신호를 조정한다.According to an embodiment of the present invention, the first filtering coefficient includes a plurality of first sub-filtering coefficients, and each of the first sub-filtering coefficients adjusts a corresponding audio signal in a first predetermined frequency band, and the second The filtering coefficient includes a plurality of second sub-filtering coefficients, and each of the second sub-filtering coefficients adjusts a corresponding audio signal in a second predetermined frequency band.

본 발명의 실시 예에 따르면, 상기 인식 모듈은 작동 유닛 및 인식 유닛를 포함한다.According to an embodiment of the present invention, the recognition module includes an operation unit and a recognition unit.

작동 유닛은 음성 인식 기능을 작동시킨다.The operating unit activates the speech recognition function.

인식 유닛은 상기 음성 인식 기능에 기반하여, 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식한다.The recognition unit recognizes the sound obtained by reproducing the second audio signal based on the speech recognition function.

본 발명의 실시 예에 따르면, 오디오 인식 장치는 출력 모듈 및 검증 모듈을 더 포함한다.According to an embodiment of the present invention, the audio recognition device further includes an output module and a verification module.

출력 모듈은 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식한 후, 인식 결과를 출력한다.The output module recognizes the sound obtained by reproducing the second audio signal and then outputs a recognition result.

검증 모듈은 상기 인식 결과의 정확성을 검증한다.The verification module verifies the accuracy of the recognition result.

본 발명의 실시 예에 따르면, 상기 검증 모듈은 비교 유닛, 제1 확정 유닛 및 제2 확정 유닛을 포함한다.According to an embodiment of the present invention, the verification module includes a comparison unit, a first determination unit, and a second determination unit.

비교 유닛은 상기 인식 결과를 상기 제1 오디오 신호의 오디오 내용과 비교한다.The comparison unit compares the recognition result with the audio content of the first audio signal.

제1 확정 유닛은, 상기 인식 결과가 상기 제1 오디오 신호의 오디오 내용과 일치할 경우, 상기 인식 결과가 정확하다고 확정한다.The first determining unit determines that the recognition result is correct when the recognition result matches the audio content of the first audio signal.

제2 확정 유닛은, 상기 인식 결과가 상기 제1 오디오 신호의 오디오 내용과 일치하지 않을 경우, 상기 인식 결과에 오류가 있다고 확정한다.When the recognition result does not match the audio content of the first audio signal, the second determining unit determines that there is an error in the recognition result.

본 발명의 실시 예에 따르면, 상기 제1 오디오 신호는 복수개이고, 각 상기 제1 오디오 신호는 상기 제1 필터링 계수에 따라 처리된 후, 하나의 상기 제2 오디오 신호를 얻는다.According to an embodiment of the present invention, there are a plurality of first audio signals, and after each of the first audio signals is processed according to the first filtering coefficient, one second audio signal is obtained.

상기 인식 모듈은, 상기 제1 오디오 재생 장비를 이용하여 소정의 시간 간격으로 각 상기 제2 오디오 신호를 재생하여 얻은 소리를 각각 인식한다.The recognition module recognizes sounds obtained by reproducing each of the second audio signals at predetermined time intervals using the first audio reproducing device.

본 발명의 실시 예에 따르면, 상기 오디오 인식 장치는 차량 탑재 음성 테스트 장면에 응용된다.According to an embodiment of the present invention, the audio recognition device is applied to a vehicle-mounted voice test scene.

본 발명의 실시 예에 따르면, 상기 제1 오디오 재생 장비는 인공 입을 포함한다.According to an embodiment of the present invention, the first audio reproduction device includes an artificial mouth.

본 발명의 실시예에 따르면, 본 발명은 전자장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.According to an embodiment of the present invention, the present invention further provides an electronic device, a computer-readable storage medium, and a computer program.

도8은 본 발명의 실시 예에 따른 오디오 인식 방법을 구현하는데 적합한 컴퓨터 시스템의 블록도를 예시적으로 나타낸다.8 is an exemplary block diagram of a computer system suitable for implementing an audio recognition method according to an embodiment of the present invention.

도 8에 도시된 바와 같이, 본 발명의 실시예의 방법을 실행하기 위한 전자장비의 블록도이다. 전자장비는 예를 들어, 랩탑 컴퓨터, 데스크 탑 컴퓨터, 워크스테이션, PDA (Personal Digital Assistants), 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 포함할 수 있다. 전자장비는 예를 들어, PDA (Personal Digital Assistants), 셀룰러 전화기, 스마트 폰, 웨어러블 장비, 및 기타 유사한 컴퓨팅 장비와 같은 다양한 형태의 모바일 장비를 포함할 수 있다. 본 명세서에 기재된 부품, 이들의 연결 및 관계, 그리고 이들의 기능은 단지 예시적인 것에 불과하며, 본 명세서에서 설명 및/또는 요구하는 본 발명의 범위를 한정하기 위한 것이 아니다.As shown in Fig. 8, it is a block diagram of electronic equipment for executing the method of the embodiment of the present invention. Electronic equipment may include various types of digital computers such as, for example, laptop computers, desktop computers, workstations, personal digital assistants (PDAs), servers, blade servers, mainframe computers, and other suitable computers. Electronic equipment may include various types of mobile equipment such as, for example, personal digital assistants (PDAs), cellular telephones, smart phones, wearable equipment, and other similar computing equipment. The components described herein, their connections and relationships, and their functions are merely exemplary, and are not intended to limit the scope of the invention described and/or required herein.

도 8에 도시된 바와 같이, 상기 전자장비(800)는, 하나 또는 복수의 프로세서(801), 메모리(802), 및 각 부품을 연결하기 위한 인터페이스를 포함하고, 상기 인터페이스에는 고속 인터페이스 및 저속 인터페이스가 포함된다. 각 부품들은 서로 다른 버스를 통해 서로 연결되고, 공공 메인보드에 장착되거나 또는 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자장비에서 실행되는 명령들을 실행할 수 있고, 상기 명령은 메로리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 접속된 표시 장치)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함할 수 있다. 다른 실시예에서는, 수요에 따라 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용될 수 있다. 마찬가지로, 복수의 전자장비를 연결하고, 각 전자장비에 의해 일부 필요한 동작을 제공할 수 있다(예를 들어, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템). 도8에서는, 하나의 프로세서(801)의 경우를 예로 들어 설명한다.As shown in FIG. 8, the electronic device 800 includes one or more processors 801, a memory 802, and an interface for connecting each component, and the interface includes a high-speed interface and a low-speed interface. Is included. Each component can be connected to each other via different buses, mounted on public motherboards, or otherwise mounted on demand. The processor may execute commands executed in the electronic device, and the commands are stored in memory to include commands for displaying graphic information of the GUI on an external input/output device (eg, a display device connected to an interface). I can. In other embodiments, a plurality of processors and/or a plurality of buses may be used with a plurality of memories, depending on demand. Similarly, it is possible to connect a plurality of electronic devices and provide some necessary operation by each electronic device (eg, a server array, a set of blade servers, or a multi-processor system). In FIG. 8, a case of one processor 801 will be described as an example.

메모리(802)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장될 수 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 본 발명에 의해 제공되는 방법을 실행할 수 있다. 본 발명의 비 일시적 컴퓨터 판독가능 저장 매체에는 컴퓨터에 의해 실행 될 경우 컴퓨터로 하여금 본 발명에 의해 제공되는 방법을 실행하도록 하는 컴퓨터 명령이 저장되어 있다.Memory 802 is a non-transitory computer-readable storage medium provided by the present invention. Here, an instruction that can be executed by at least one processor may be stored in the memory, and when the instruction is executed by the at least one processor, the method provided by the present invention may be executed. The non-transitory computer-readable storage medium of the present invention stores computer instructions that, when executed by a computer, cause the computer to execute the method provided by the present invention.

메모리(802)는 비 일시적 컴퓨터 판독가능 저장 매체로서, 예를 들어, 본 발명의 실시예에 따른 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도7에 도시된 제1 취득 모듈(710), 제1 처리 모듈(720) 및 인식 모듈(730))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(801)는 메모리(802)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예에 따른 방법을 구현한다.The memory 802 is a non-transitory computer-readable storage medium, for example, program instructions/modules corresponding to the method according to the embodiment of the present invention (e.g., the first acquisition module 710 shown in FIG. 7 ). , A non-transitory software program such as the first processing module 720 and the recognition module 730, a non-transitory computer executable program, and a module may be stored. The processor 801 executes non-transitory software programs, instructions, and modules stored in the memory 802, thereby executing various functions and data processing of the server. That is, a method according to the method embodiment is implemented.

메모리(8002)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 OS 시스템 및 적어도 하나의 기능에 필요한 애플리케이션을 저장할 수 있고, 데이터 저장 영역은 상기 방법의 전자장비의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(802)는 고속 RAM(Random Access Memory)를 포함할 수도 있고, 예를 들어, 적어도 하나의 디스크 저장 디바이스, 플래시 메모리 디바이스, 또는 기타 비 일시적 고체 저장 디바이스와 같은 비 일시적 메모리를 포함할 수도 있다. 일부 실시예에 따르면, 메모리(802)는 프로세서(801)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 전자장비에 연결될 수 있다. 상기 네트워크의 실예로는 인터넷, 인트라넷, 근거리 통신망(LAN), 이동 통신망 및 이들의 조합을 포함할 수 있는데, 이에 한정되지는 않는다.The memory 8002 may include a program storage area and a data storage area. Here, the program storage area may store an OS system and an application required for at least one function, and the data storage area may store data generated according to the use of the electronic device of the method. Further, the memory 802 may include a high-speed random access memory (RAM), and may include, for example, a non-transitory memory such as at least one disk storage device, a flash memory device, or other non-transitory solid storage device. May be. According to some embodiments, the memory 802 may include a memory installed remotely to the processor 801, and such a remote memory may be connected to an electronic device through a network. Examples of the network may include the Internet, an intranet, a local area network (LAN), a mobile communication network, and combinations thereof, but are not limited thereto.

전자장비는, 입력장치(803) 및 출력장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력장치(803) 및 출력장치(804)는 버스 또는 기타 방식으로 연결될 수 있는데, 도8에서는 버스를 통해 연결되는 예를 도시한다.The electronic equipment may further include an input device 803 and an output device 804. The processor 801, the memory 802, the input device 803, and the output device 804 may be connected by a bus or other method, and FIG. 8 shows an example of connection through a bus.

입력장치(803)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 또한 전자장비의 사용자 설정 및 기능 제어와 연관된 키 신호입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 인디케이터 로드, 하나 또는 복수의 마우스 버튼, 트랙 볼, 콘트로럴 로드 등과 같은 입력장치를 포함할 수 있다. 출력장치(804)는 표시 장치, 보조 조명장치(예를 들어, LED) 및 햅틱 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 상기 표시 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라스마 디스플레이를 포함할 수 있는데, 이에 한정되지는 않는다. 일부 실시 형태에 따르면, 표시 장치는 터치 스크린일 수 있다.The input device 803 may receive input number or character information, and may also generate a key signal input related to user setting and function control of an electronic device. For example, a touch screen, a keypad, a mouse, It may include an input device such as a track pad, a touch pad, an indicator rod, one or more mouse buttons, a track ball, and a control rod. The output device 804 may include a display device, an auxiliary lighting device (eg, an LED), a haptic feedback device (eg, a vibration motor), and the like. The display device may include a liquid crystal display (LCD), a light emitting diode (LED) display, and a plasma display, but is not limited thereto. According to some embodiments, the display device may be a touch screen.

여기서 설명한 시스템 및 기술의 다양한 실시 형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램을 통해 구현될 수 있고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로 전송할 수 있다.Various embodiments of the systems and technologies described herein may be implemented in a digital electronic circuit system, an integrated circuit system, an application specific integrated circuit (ASIC), computer hardware, firmware, software, and/or combinations thereof. These various embodiments may be implemented through one or a plurality of computer programs, and the one or a plurality of computer programs may be executed and/or interpreted in a programmable system including at least one programmable processor, and the program The capable processor may be a dedicated or general purpose programmable processor, and receives data and instructions from a storage system, at least one input device, and at least one output device, and stores data and commands in a storage system, at least one input device, and It can be transmitted to at least one output device.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계언어 명령을 포함하고, 하이 라벨 프로시저 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블러/기계언어를 사용하여 이러한 컴퓨터 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체" 등과 같은 용어는, 기계언어 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 장비, 및/또는 장치(예를 들어, 디스크, CD-ROM, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하는데 사용되고, 기계 판독 가능 신호로서의 기계언어 명령을 수신하는 기계 판독가능 매체를 포함한다. "기계 판독가능 신호"라는 용어는 기계언어 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.Such computer programs (also called programs, software, software applications, or code) contain machine language instructions of a programmable processor, and use high label procedures and/or object-oriented programming languages, and/or assembler/machine languages. Thus, such a computer program can be executed. Terms such as "machine-readable medium" and "computer-readable medium" as used herein refer to any computer program product, equipment, and/or device (eg, machine language instructions and/or data) of a programmable processor. For example, it is used to provide a disk, CD-ROM, memory, programmable logic device (PLD)), and includes a machine-readable medium for receiving machine language instructions as machine-readable signals. The term "machine-readable signal" means any signal for providing machine language instructions and/or data to a programmable processor.

사용자와의 인터액션을 제공하기 위해서는, 컴퓨터를 통해 본 명세서에서 설명한 시스템 및 기술을 구현할 있는데, 상기 컴퓨터는, 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터), 및 사용자가 상기 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙 볼)를 포함한다. 기타 유형의 디바이스도 사용자와의 인터액션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.In order to provide an interaction with a user, the system and technology described in this specification can be implemented through a computer, the computer is a display device (e.g., CRT (cathode ray tube) or LCD (liquid crystal)) for displaying information to the user. Display) monitor), and a keyboard and pointing device (e.g., a mouse or track ball) through which a user can provide input to the computer. Other types of devices can also be used to provide user interaction. For example, the feedback provided to the user may be any form of sensing feedback (eg, visual feedback, auditory feedback, or tactile feedback), and may include any form (sound input, voice input, or tactile input). ) To receive input from the user.

본 명세서에서 설명한 시스템 및 기술은, 백 그라운더 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 앤드 부품을 포함하는 컴퓨팅 시스템(예를 들어, GUI 또는 웹 브라우저를 갖는 사용자 컴퓨터로서, 사용자는 상기 GUI 또는 상기 웹 브라우저를 통하여 본 명세서에서 설명한 상기 시스템 및 기술의 실시 형태와 인터액션을 할 수 있음), 또는 이러한 백 그라운더 부품, 미들웨어 부품, 또는 프론트 앤드 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크는 예를 들어 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함할 수 있다.The systems and technologies described herein include a computing system (eg, a data server) including a backgrounder component, or a computing system (eg, an application server) including a middleware component, or a front-end component. Computing system (for example, as a user computer having a GUI or a web browser, the user can interact with the embodiments of the system and technology described herein through the GUI or the web browser), or such a bag It may be implemented in a computing system including any combination of grounder parts, middleware parts, or front end parts. The components of the system may be connected to each other via digital data communication (eg, a communication network) in any form or medium. The communication network may include, for example, a local area network (LAN), a wide area network (WAN), and the Internet.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터액션을 진행한다. 클라이언트와 서버의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버의 관계를 갖는 컴퓨터 프로그램에 의해 생성된다.Computer systems can include clients and servers. Clients and servers are generally far apart from each other and typically interact through a communication network. The relationship between the client and the server is created by a computer program that runs on the corresponding computer and has a client-server relationship with each other.

본 발명의 실시 예의 기술방안에 따르면, 녹음하여 얻은 제1 오디오 신호는 서로 다른 장면에서의 테스트 음성일 수 있으므로, 현장 테스트를 할 필요가 없고, 외부 간섭 요소에 제한되는 것을 피하여, 테스트 효율을 향상시킬 수 있다. 또한,제1 오디오 재생 장비는 제2 오디오 신호를 반복적으로 재생할 수 있으므로, 음성 인식 시스템의 최적화 전과 최적화 후의 차이는 최적화로 인한 것임을 알 수 있고, 테스트 요원의 발음 상태가 다름으로 인해 최적화 결과가 달라지는 문제는 존재하지 않는다. 오디오 신호는 장비에 의해 재생된 후 원래 녹음할 때와 다르게 되므로, 오디오 재생 장비의 주파수 응답 곡선에 따라, 녹음하여 얻은 오디오 신호에 대해 미리 역방향으로 조정하여, 재생 장비에 의해 재생된 소리가 녹음 시의 주파수 응답 곡선과 일치하도록 함으로써, 오디오를 재현하는 기술적 효과를 달성할 수 있다. 본 발명의 실시 예의 기술방안에 따르면, 인공 대신 현장 테스트를 진행할 수 있음으로, 인력을 대대적으로 절약함과 동시에, 테스트 과정중 환경에 대한 의존성을 감소시킬 수 있다.According to the technical solution of an embodiment of the present invention, since the first audio signal obtained by recording may be a test voice in different scenes, there is no need to perform a field test, and it is avoided to be limited to external interference elements, thereby improving test efficiency. I can make it. In addition, since the first audio reproducing equipment can repeatedly reproduce the second audio signal, it can be seen that the difference between before and after the optimization of the speech recognition system is due to optimization. The problem doesn't exist. Since the audio signal is reproduced by the equipment and is different from the original recording, according to the frequency response curve of the audio reproduction equipment, the audio signal obtained by recording is adjusted in the reverse direction in advance, and the sound reproduced by the reproduction equipment is recorded. By matching the frequency response curve of, the technical effect of reproducing the audio can be achieved. According to the technical solution of an embodiment of the present invention, since field testing can be performed instead of artificial, it is possible to significantly save manpower and reduce dependence on the environment during the test process.

상기에서 설명한 다양한 프로세스를 사용하여 각 단계의 순서를조정하거나, 일부 단계를 추가 또는 삭제 할 수 있다는 점을 이해하여야 한다. 예를 들어, 본 발명이 개시된 기술방안이 원하는 결과를 구현할 수 있는 한, 본 발명에 기재된 다양한 단계는 병렬적으로 또는 순차적으로, 또는 서로 다른 순서로 실행될 수 있고, 본 발명은 이에 대해 특별히 한정하지 않는다.It should be understood that the various processes described above can be used to adjust the order of each step, or to add or delete some steps. For example, as long as the technical solution disclosed in the present invention can achieve a desired result, various steps described in the present invention may be executed in parallel or sequentially, or in different orders, and the present invention is not particularly limited thereto. Does not.

본 발명의 보호범위는 상기 다양한 실시 형태에 의해 제한되지 않는다. 당업자라면, 설계 요구 및 기타 요소에 의해, 다양한 수정, 조합, 서브 조합 및 교체가 이루어질 수 있음을 이해할 것이다. 본 발명의 취지 및 원칙내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호범위에 속한다.The scope of protection of the present invention is not limited by the above various embodiments. Those skilled in the art will understand that various modifications, combinations, sub-combinations and replacements may be made, depending on design needs and other factors. Any modifications, equivalent replacements and improvements made within the spirit and principle of the present invention all fall within the scope of protection of the present invention.

교통 수단 : 110 전자 장비 : 120
오디오 재생 장비 : 130 오디오 인식 장치 : 700
제 1 취득 모듈 : 710 제 1 처리 모듈 : 720
인식 모듈 : 730 전자장비 : 800
프로세서 : 801 메모리 : 802
입력장치 : 803 출력장치 : 804
Transportation: 110 Electronic equipment: 120
Audio playback equipment: 130 Audio recognition devices: 700
First acquisition module: 710 First processing module: 720
Recognition module: 730 Electronic equipment: 800
Processor: 801 Memory: 802
Input device: 803 Output device: 804

Claims (21)

녹음하여 얻은 제1 오디오 신호를 취득하는 것,
제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제 1 필터링 계수에 따라, 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하는 것, 및
상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것을 포함하는
오디오 인식 방법.
Acquiring a first audio signal obtained by recording,
Process the first audio signal to obtain a second audio signal according to a first frequency response of sound obtained by reproducing a calibration signal by a first audio reproduction device and a first filtering coefficient calculated from the frequency response of the calibration signal To do, and
Recognizing the sound obtained by reproducing the second audio signal using the first audio reproducing device
Audio recognition method.
제1항에 있어서,
녹음하여 얻은 제3 오디오 신호를 취득하는 것,
제2 오디오 재생 장비에 의해 상기 캘리브레이션 신호를 재생하여 얻은 소리의 제2 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제2 필터링 계수에 따라, 상기 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득하는 것, 및
상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생함과 동시에, 상기 제2 오디오 재생 장비를 이용하여 상기 제4 오디오 신호를 재생하는 과정에, 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것을 더 포함하는
오디오 인식 방법.
The method of claim 1,
Acquiring a third audio signal obtained by recording,
According to a second frequency response of sound obtained by reproducing the calibration signal by a second audio reproduction device and a second filtering coefficient calculated from the frequency response of the calibration signal, the third audio signal is processed to generate a fourth audio signal. To acquire, and
Sound obtained by reproducing the second audio signal while reproducing the second audio signal using the first audio reproducing device and reproducing the fourth audio signal using the second audio reproducing device Further comprising recognizing
Audio recognition method.
제2항에 있어서,
상기 제1 오디오 신호는 사람 목소리 오디오 신호를 포함하고,
상기 제3 오디오 신호는 노이즈 오디오 신호를 포함하는
오디오 인식 방법.
The method of claim 2,
The first audio signal includes a human voice audio signal,
The third audio signal comprises a noisy audio signal
Audio recognition method.
제1항 또는 제2항에 있어서,
상기 제 1 필터링 계수에 따라 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하는 것은,
상기 제 1 필터링 계수를 이용하여 상기 제1 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제2 오디오 신호를 취득하는 것을 포함하고,
상기 제2 필터링 계수에 따라 상기 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득하는 것은,
상기 제2 필터링 계수를 이용하여 상기 제3 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제4 오디오 신호를 취득하는 것을 포함하는
오디오 인식 방법.
The method according to claim 1 or 2,
Acquiring a second audio signal by processing the first audio signal according to the first filtering coefficient,
And acquiring the second audio signal by adjusting the frequency spectrum of the first audio signal using the first filtering coefficient,
Acquiring a fourth audio signal by processing the third audio signal according to the second filtering coefficient,
And acquiring the fourth audio signal by adjusting the frequency spectrum of the third audio signal using the second filtering coefficient.
Audio recognition method.
제1항 또는 제2항에 있어서,
상기 제1 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제1 주파수 응답의 차이에 의해 결정되고,
상기 제2 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제2 주파수 응답의 차이에 의해 결정되는
오디오 인식 방법.
The method according to claim 1 or 2,
The first filtering coefficient is determined by a difference between the frequency response of the calibration signal and the first frequency response,
The second filtering coefficient is determined by a difference between the frequency response of the calibration signal and the second frequency response.
Audio recognition method.
제1항 또는 제2항에 있어서,
상기 제1 필터링 계수는 복수의 제1 서브 필터링 계수를 포함하고, 각 제1 서브 필터링 계수는 각각 제1 소정 주파수 대역중 대응하는 오디오 신호를 조정하고,
상기 제2 필터링 계수는 복수의 제2 서브 필터링 계수를 포함하고, 각 제2 서브 필터링 계수는 각각 제2 소정 주파수 대역중 대응하는 오디오 신호를 조정하는
오디오 인식 방법.
The method according to claim 1 or 2,
The first filtering coefficients include a plurality of first sub-filtering coefficients, each of the first sub-filtering coefficients each adjusting a corresponding audio signal in a first predetermined frequency band,
The second filtering coefficient includes a plurality of second sub-filtering coefficients, and each second sub-filtering coefficient adjusts a corresponding audio signal in a second predetermined frequency band.
Audio recognition method.
제1항에 있어서,
상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것은,
음성 인식 기능을 작동시키는 것, 및
상기 음성 인식 기능에 기반하여, 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것을 포함하는
오디오 인식 방법.
The method of claim 1,
Recognizing the sound obtained by reproducing the second audio signal using the first audio reproduction device,
Activating the speech recognition function, and
Recognizing a sound obtained by reproducing the second audio signal based on the speech recognition function
Audio recognition method.
제7항에 있어서,
상기 제2 오디오 신호를 재생하여 얻은 소리를 인식한 후, 인식 결과를 출력하는 것, 및
상기 인식 결과의 정확성을 검증하는 것을 더 포함하는
오디오 인식 방법.
The method of claim 7,
After recognizing the sound obtained by reproducing the second audio signal, outputting a recognition result, and
Further comprising verifying the accuracy of the recognition result
Audio recognition method.
제8항에 있어서,
상기 인식 결과의 정확성을 검증하는 것은,
상기 인식 결과와 상기 제1 오디오 신호의 오디오 내용을 비교하는 것,
상기 인식 결과가 상기 제1 오디오 신호의 오디오 내용과 일치할 경우, 상기 인식 결과가 정확하다고 확정하는 것, 및
상기 인식 결과가 상기 제1 오디오 신호의 오디오 내용과 일치하지 않을 경우, 상기 인식 결과에 오류가 있다고 확정하는 것을 포함하는
오디오 인식 방법.
The method of claim 8,
To verify the accuracy of the recognition result,
Comparing the recognition result with the audio content of the first audio signal,
If the recognition result matches the audio content of the first audio signal, determining that the recognition result is correct, and
In case the recognition result does not match the audio content of the first audio signal, determining that there is an error in the recognition result.
Audio recognition method.
제1항에 있어서,
상기 제1 오디오 신호는 복수개이고, 각 상기 제1 오디오 신호는 상기 제1 필터링 계수에 따라 처리된 후, 하나의 상기 제2 오디오 신호를 얻고,
상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는 것은,
상기 제1 오디오 재생 장비를 이용하여 소정의 시간 간격으로 각 상기 제2 오디오 신호를 재생하여 얻은 소리를 각각 인식하는 것을 포함하는
오디오 인식 방법.
The method of claim 1,
The first audio signal is plural, and after each of the first audio signals is processed according to the first filtering coefficient, one of the second audio signals is obtained,
Recognizing the sound obtained by reproducing the second audio signal using the first audio reproduction device,
Recognizing each sound obtained by reproducing each of the second audio signals at predetermined time intervals using the first audio reproducing equipment
Audio recognition method.
제1항에 있어서,
상기 오디오 인식 방법은 차량 탑재 음성 테스트 장면에 응용되는
오디오 인식 방법.
The method of claim 1,
The audio recognition method is applied to a vehicle-mounted voice test scene.
Audio recognition method.
제1항에 있어서,
상기 제1 오디오 재생 장비는 인공 입을 포함하는
오디오 인식 방법.
The method of claim 1,
The first audio playback equipment comprises an artificial mouth
Audio recognition method.
녹음하여 얻은 제1 오디오 신호를 취득하기 위한 제1 취득 모듈,
제1 오디오 재생 장비에 의해 캘리브레이션 신호를 재생하여 얻은 소리의 제1 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제 1 필터링 계수에 따라, 상기 제 1 오디오 신호를 처리하여 제 2 오디오 신호를 취득하기 위한 제1 처리 모듈, 및
상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하기 위한 인식 모듈을 포함하는
오디오 인식 장치.
A first acquisition module for acquiring a first audio signal obtained by recording,
Process the first audio signal to obtain a second audio signal according to a first frequency response of sound obtained by reproducing a calibration signal by a first audio reproduction device and a first filtering coefficient calculated from the frequency response of the calibration signal A first processing module for
And a recognition module for recognizing a sound obtained by reproducing the second audio signal using the first audio reproducing device
Audio recognition device.
제13항에 있어서,
녹음하여 얻은 제3 오디오 신호를 취득하기 위한 제2 취득 모듈, 및
제2 오디오 재생 장비에 의해 상기 캘리브레이션 신호를 재생하여 얻은 소리의 제2 주파수 응답 및 상기 캘리브레이션 신호의 주파수 응답으로부터 산출한 제2 필터링 계수에 따라, 상기 제3 오디오 신호를 처리하여 제4 오디오 신호를 취득하기 위한 제2 처리 모듈을 더 포함하고,
상기 인식 모듈은, 상기 제1 오디오 재생 장비를 이용하여 상기 제2 오디오 신호를 재생함과 동시에 상기 제2 오디오 재생 장비를 이용하여 상기 제4 오디오 신호를 재생하는 과정에, 상기 제2 오디오 신호를 재생하여 얻은 소리를 인식하는
오디오 인식 장치.
The method of claim 13,
A second acquisition module for acquiring a third audio signal obtained by recording, and
According to a second frequency response of sound obtained by reproducing the calibration signal by a second audio reproduction device and a second filtering coefficient calculated from the frequency response of the calibration signal, the third audio signal is processed to generate a fourth audio signal. Further comprising a second processing module for acquiring,
The recognition module, in the process of reproducing the second audio signal using the first audio reproducing device and simultaneously reproducing the fourth audio signal using the second audio reproducing device, the second audio signal Recognizing the sound obtained by playing
Audio recognition device.
제14항에 있어서,
상기 제1 오디오 신호는 사람 목소리 오디오 신호를 포함하고,
상기 제3 오디오 신호는 노이즈 오디오 신호를 포함하는
오디오 인식 장치.
The method of claim 14,
The first audio signal includes a human voice audio signal,
The third audio signal comprises a noisy audio signal
Audio recognition device.
제13항 또는 제14항에 있어서,
상기 제1 처리 모듈은, 상기 제 1 필터링 계수에 따라 상기 제1 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제2 오디오 신호를 취득하고,
상기 제2 처리 모듈은, 상기 제2 필터링 계수에 따라 상기 제3 오디오 신호의 주파수 스펙트럼을 조정하여, 상기 제4 오디오 신호를 취득하는
오디오 인식 장치.
The method of claim 13 or 14,
The first processing module, by adjusting the frequency spectrum of the first audio signal according to the first filtering coefficient, to obtain the second audio signal,
The second processing module is configured to obtain the fourth audio signal by adjusting a frequency spectrum of the third audio signal according to the second filtering coefficient.
Audio recognition device.
제13항 또는 제14항에 있어서,
상기 제1 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제1 주파수 응답의 차이에 의해 결정되고,
상기 제2 필터링 계수는 상기 캘리브레이션 신호의 주파수 응답과 상기 제2 주파수 응답의 차이에 의해 결정되는
오디오 인식 장치.
The method of claim 13 or 14,
The first filtering coefficient is determined by a difference between the frequency response of the calibration signal and the first frequency response,
The second filtering coefficient is determined by a difference between the frequency response of the calibration signal and the second frequency response.
Audio recognition device.
제13항 또는 제14항에 있어서,
상기 제1 필터링 계수는 복수의 제1 서브 필터링 계수를 포함하고, 각 제1 서브 필터링 계수는 각각 제1 소정 주파수 대역중 대응하는 오디오 신호를 조정하고,
상기 제2 필터링 계수는 복수의 제2 서브 필터링 계수를 포함하고, 각 제2 서브 필터링 계수는 각각 제2 소정 주파수 대역중 대응하는 오디오 신호를 조정하는
오디오 인식 장치.
The method of claim 13 or 14,
The first filtering coefficients include a plurality of first sub-filtering coefficients, each of the first sub-filtering coefficients each adjusting a corresponding audio signal in a first predetermined frequency band,
The second filtering coefficient includes a plurality of second sub-filtering coefficients, and each second sub-filtering coefficient adjusts a corresponding audio signal in a second predetermined frequency band.
Audio recognition device.
적어도 하나의 프로세서, 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제3항 중 어느 한 항의 방법을 실행하게 하는
전자장비.
At least one processor, and
A memory that is communicatively connected with the at least one processor,
In the memory, an instruction executable by the at least one processor is stored, and when the instruction is executed by the at least one processor, the at least one processor causes the method of any one of claims 1 to 3 To run
Electronic equipment.
컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제3항중 어느 한 항의 방법을 구현하는
비 일시적 컴퓨터 판독가능 저장 매체.
A non-transitory computer-readable storage medium having a computer program stored thereon,
When the computer program is executed by a processor, implementing the method of any one of claims 1 to 3
Non-transitory computer-readable storage media.
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제3항중 어느 한 항의 방법을 구현하는
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.



A computer program stored in a computer-readable storage medium, comprising:
When the instructions of the computer program are executed by a processor, the method of any one of claims 1 to 3 is implemented.
A computer program stored on a computer readable storage medium.



KR1020210033390A 2020-09-18 2021-03-15 audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program KR102488319B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010991729.5 2020-09-18
CN202010991729.5A CN114203156A (en) 2020-09-18 2020-09-18 Audio recognition method, audio recognition device, electronic equipment and storage medium

Publications (2)

Publication Number Publication Date
KR20210042851A true KR20210042851A (en) 2021-04-20
KR102488319B1 KR102488319B1 (en) 2023-01-13

Family

ID=75743268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210033390A KR102488319B1 (en) 2020-09-18 2021-03-15 audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program

Country Status (3)

Country Link
JP (1) JP7158110B2 (en)
KR (1) KR102488319B1 (en)
CN (1) CN114203156A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4102499A1 (en) * 2021-06-08 2022-12-14 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Wakeup testing method and apparatus, electronic device and readable storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050062293A (en) * 2003-12-20 2005-06-23 한국전자통신연구원 Apparatus for the generation of calibration signal in receiver

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5916054B2 (en) * 2011-06-22 2016-05-11 クラリオン株式会社 Voice data relay device, terminal device, voice data relay method, and voice recognition system
CN103745731B (en) 2013-12-31 2016-10-19 科大讯飞股份有限公司 A kind of speech recognition effect automatization test system and method for testing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050062293A (en) * 2003-12-20 2005-06-23 한국전자통신연구원 Apparatus for the generation of calibration signal in receiver

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4102499A1 (en) * 2021-06-08 2022-12-14 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Wakeup testing method and apparatus, electronic device and readable storage medium
JP2022187977A (en) * 2021-06-08 2022-12-20 アポロ インテリジェント コネクティヴィティ (ベイジン) テクノロジー カンパニー リミテッド Wake-up test method, device, electronic device and readable storage medium

Also Published As

Publication number Publication date
CN114203156A (en) 2022-03-18
JP2021103329A (en) 2021-07-15
JP7158110B2 (en) 2022-10-21
KR102488319B1 (en) 2023-01-13

Similar Documents

Publication Publication Date Title
US10997965B2 (en) Automated voice processing testing system and method
CN108831437B (en) Singing voice generation method, singing voice generation device, terminal and storage medium
CN110197658B (en) Voice processing method and device and electronic equipment
CN110337055A (en) Detection method, device, electronic equipment and the storage medium of speaker
US20210243528A1 (en) Spatial Audio Signal Filtering
CN105979462A (en) Test processing method and device based on microphone
CN113823334B (en) Environment simulation method applied to vehicle-mounted equipment, related device and equipment
US20220394403A1 (en) Wakeup testing method and apparatus, electronic device and readable storage medium
JP7308335B2 (en) Test method, device, electronic equipment and storage medium for in-vehicle audio equipment
CN111739512A (en) Voice wake-up rate testing method, system, device and medium based on real vehicle
CN107885845B (en) Audio classification method and device, computer equipment and storage medium
CN104707331A (en) Method and device for generating game somatic sense
US9633665B2 (en) Process and associated system for separating a specified component and an audio background component from an audio mixture signal
KR102488319B1 (en) audio recognition method, audio recognition apparatus, electronic equipment, computer readable storage medium and computer program
US11579012B1 (en) Abnormal sound detection method and apparatus
CN113643704A (en) Test method, upper computer, system and storage medium of vehicle-mounted machine voice system
KR102262634B1 (en) Method for determining audio preprocessing method based on surrounding environments and apparatus thereof
CN114302301B (en) Frequency response correction method and related product
JP2021517267A (en) Methods and devices for extracting tone color attributes that do not depend on pitch from media signals
KR20200053242A (en) Voice recognition system for vehicle and method of controlling the same
CN113485914B (en) Vehicle-mounted voice SDK testing method, device and system
US20230230609A1 (en) Training machine learning frameworks to generate studio-quality recordings through manipulation of noisy audio signals
CN116665713A (en) Cabin voice test system, method, electronic equipment and readable storage medium
CN116364057A (en) Audio synthesis method, device, computer equipment and storage medium
CN115206289A (en) Method, device, equipment and storage medium for detecting equipment performance

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant