KR20210133600A - 차량 음성 인식 방법 및 장치 - Google Patents

차량 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20210133600A
KR20210133600A KR1020200052404A KR20200052404A KR20210133600A KR 20210133600 A KR20210133600 A KR 20210133600A KR 1020200052404 A KR1020200052404 A KR 1020200052404A KR 20200052404 A KR20200052404 A KR 20200052404A KR 20210133600 A KR20210133600 A KR 20210133600A
Authority
KR
South Korea
Prior art keywords
information
vehicle
voice recognition
microphone
voice
Prior art date
Application number
KR1020200052404A
Other languages
English (en)
Inventor
이경철
박영재
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020200052404A priority Critical patent/KR20210133600A/ko
Priority to US17/015,792 priority patent/US11580958B2/en
Publication of KR20210133600A publication Critical patent/KR20210133600A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0247Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for microphones or earphones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

본 발명은 차량 음성 인식 방법 및 그 장치에 관한 것으로서, 본 발명의 일 실시예에 따른 차량 음성 인식 방법은 타입 별 정보를 수집하는 단계와 상기 타입에 상응하여 미리 정의된 정보 처리 우선 순위에 기반하여 음성 인식을 위해 연계할 정보를 결정하는 단계와 상기 결정된 정보를 분석하여 마이크를 통해 입력된 신호에 대한 음성 인식을 수행하는 단계와 상기 음성 인식을 통해 기동어 및(또는) 명령어를 추출하여 차량을 제어하는 단계를 포함할 수 있다. 따라서, 본 발명은 차량 내 수집한 다양한 정보를 연계하여 보다 정확하게 음성 인식을 수행할 수 있는 장점이 있다.

Description

차량 음성 인식 방법 및 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION IN VEHICLE}
본 발명은 음성 인식에 관한 것으로, 보다 상세하게는 차량에서의 음성 인식 성능을 향상시키는 것이 가능한 차량 음성 인식 방법 및 장치에 관한 기술이다.
음성인식(Speech Recognition) 기술은 사용자의 발화 음성을 입력 받아 이를 분석하고, 분석 결과에 따른 결과에 따라 다양한 서비스를 제고하는 기술이다.
종래 대표적인 음성인식 서비스로는 사용자의 발화 음성을 입력 받아 문자로 변환하여 출력하는 음성 문자 변환 서비스, 사용자의 발화 음성을 인식하여 각종 비서 서비스를 제공하는 음성 인식 기반 가상 비서 서비스, 사용자 발화 음성으로부터 제어 명령을 인식하여 해당 전자 기기를 제어하는 음성 인식 기반 기기 제어 서비스 등이 있다.
최근에는 인공 지능과 IT 기술을 접목한 보다 다양한 음성 인식 서비스가 출시되고 있다.
기존 자동차의 경우, 내비게이션, 음악, 전화 통화, 공조, 조명 등이 대부분 버튼이나 화면 터치를 통해 제어되었다. 하지만 버튼 또는 화면 터치 조작 시 전방 주시 태만으로 교통사고가 증가하면서 완성차 업체들을 중심으로 자동차 제어를 단순하게 만들기 위한 노력이 꾸준히 이어지고 있다.
최근에도, 음성 인식을 통한 차량 제어 기술에 대한 연구가 활발히 진행되고 있다.
종래 차량 운전자 또는 탑승자는 하드웨어 푸시투토크(Push to Talk) 버튼 조작 또는 소프트웨어 키 터치 입력 등을 통해 음성 인식 기능을 활성화하였다.
최근에는 물리적인 버튼 입력을 대체하여 사용자의 음성을 통해 음성 인식 기능을 활성화시키는 기동어(Wake up Word) 기반의 음성 인식 서비스가 일반화되고 있다.
기동어 기반의 음성 인식 성능은 크게 키워드를 발화했을 때 해당 키워드에 맞는 기능을 정상적으로 수행하는 기능과 키워드가 발화되지 않은 경우에 어떠한 동작도 수행하지 않는 기능에 의해 평가될 수 있다. 일 예로, 차량 탑승자가 키워드가 포함되지 않은 일반 대화를 수행하는 도중에 잘못 키워드가 인식되어 원하지 않는 기능이 수행되는 것은 기동어 기반의 음성 인식 성능을 크게 저하시키는 요소이다.
하지만, 종래 기동어 기반의 음성 인식 기술이 탑재된 차량의 경우, 라디오 방송, 네비게이션 등의 멀티미디어 기기 재생, 운전자와 동승자간 대화, 운행 중 차량 환경 노이즈 등으로 인해 정확한 기동어 인식이 어려울 뿐만 아니라 잘못된 기동어 인식으로 인해 시스템이 자주 깨어나는 오동작을 발생시키는 문제점이 있었다.
또한, 음성 인식 기능이 활성화된 후에도 멀티미디어 기기 재생 및 차량 환경 노이즈 등으로 인해 탑승자에 의해 발화된 키워드를 정확히 인식하지 못하는 문제점이 있었다.
본 발명의 목적은 차량 음성 인식 방법 및 장치를 제공하는 것이다.
본 발명의 다른 목적은 기동어 기반의 음성 인식 기능이 탑재된 차량에서 차량 환경에 따라 적응적으로 주변 장치를 활용하여 음성 인식을 수행하는 것이 가능한 차량 음성 인식 방법 및 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 차량 환경에서 보다 정확하게 기동어를 인식하여 향상된 음성 인식 성능을 제공하는 것이 가능한 차량 음성 인식 방법 및 그를 위한 장치 및 시스템을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 차량 음성 인식 방법은 타입 별 정보를 수집하는 단계와 상기 타입에 상응하여 미리 정의된 정보 처리 우선 순위에 기반하여 음성 인식을 위해 연계할 정보를 결정하는 단계와 상기 결정된 정보를 분석하여 마이크를 통해 입력된 신호에 대한 음성 인식을 수행하는 단계와 상기 음성 인식을 통해 기동어 및(또는) 명령어를 추출하여 차량을 제어하는 단계를 포함할 수 있다.
실시 예로, 상기 타입 별 수집된 정보는 음성 정보, 차량 정보, 영상 정보, 센싱 정보 중 적어도 하나를 포함할 수 있다.
실시 예로, 상기 차량은 복수의 상기 마이크를 구비하고, 상기 타입 별 수집된 정보 중 적어도 하나에 기반하여 상기 마이크를 통해 수행된 음성 인식 결과의 신뢰도가 동적으로 조절될 수 있다.
실시 예로, 상기 차량 음성 인식 방법은 상기 타입 별 수집된 정보에 기반하여 상기 복수의 마이크 중 상기 음성 인식을 위해 활성화될 마이크를 결정하는 단계와 상기 타입 별 수집된 정보에 기반하여 상기 활성화된 마이크 입력 신호 레벨에 대한 가중치를 적용하는 단계를 더 포함할 수 있다.
실시 예로, 상기 마이크는 상기 차량에 구비된 좌석 별 배치되고, 상기 마이크 별 입력 신호 레벨을 측정하는 단계와 상기 측정된 입력 신호 레벨과 소정 임계치를 비교하여 상기 음성 인식에 사용할 마이크를 결정하는 단계와 상기 결정된 마이크를 음성 인식 마이크로 활성화시키는 단계를 포함할 수 있다.
실시 예로, 상기 좌석 별 탑승 정보에 기반하여 상기 활성화된 마이크의 입력 신호 레벨에 가중치가 부여될 수 있다.
실시 예로, 상기 차량 음성 인식 방법은 상기 영상 정보에 기반하여 운전자 시선을 인식하는 단계와 상기 인식된 시선에 상응하는 좌표를 산출하는 단계와 상기 산출된 좌표에 상응하는 제어 대상을 식별하는 단계와 상기 시선 인식된 시구간에 상응하는 마이크 입력 음성을 분석하여 상기 명령어를 추출하는 단계와 상기 추출된 명령어가 상기 식별된 제어 대상에 적용 가능한 음성 명령인지 판단하는 단계를 더 포함할 수 있다.
실시 예로, 상기 판단 결과, 상기 음성 명령인 경우, 상기 정보 처리 우선 순위를 조절하고, 상기 추출된 명령어에 상응하는 차량 제어를 수행할 수 있다.
실시 예로, 상기 센싱 정보는 제스처 센싱 정보 및 레인 센싱 정보 중 적어도 하나를 포함할 수 있다.
실시 예로, 상기 차량 음성 인식 방법은 상기 타입 별 수집된 정보를 분석하여 상기 타입 별 정보 처리 우선 순위를 동적으로 조절하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시 예에 따른 차량 음성 인식 장치는 차량 내부 기기와 연동하여 타입 별 정보를 수집하는 정보 수집부와 상기 타입 별 수집된 정보에 기초하여 상태 정보를 생성하는 상태 분석부와 상기 타입 별 정보 처리 우선 순위에 기반하여 음성 인식에 사용할 정보를 분석하는 정보 분석부와 상기 분석된 정보에 기초하여 상기 음성 인식을 위해 연계할 정보를 결정하고, 상기 결정된 연계 정보에 기초하여 시나리오를 구성하여 기동어 및(또는) 명령어를 추출하여 차량을 제어하는 학습 처리부를 포함할 수 있다.
실시 예로, 상기 타입 별 수집되는 정보는 음성 정보, 차량 정보, 영상 정보, 센싱 정보 중 적어도 하나를 포함할 수 있다.
실시 예로, 상기 차량은 복수의 마이크를 구비하고, 상기 타입 별 수집된 정보에 기반하여 상기 마이크에 상응하여 수행된 음성 인식 결과의 신뢰도가 동적으로 결정될 수 있다.
실시 예로, 상기 타입 별 수집된 정보에 기반하여 상기 복수의 마이크 중 상기 음성 인식을 위해 활성화될 마이크가 결정되고, 상기 활성화된 마이크 입력 신호 레벨에 가중치가 적용될 수 있다.
실시 예로, 상기 마이크는 상기 차량에 구비된 좌석 별 배치되고, 상기 마이크 별 입력 신호 레벨을 측정하고, 상기 측정된 입력 신호 레벨과 소정 임계치를 비교하여 상기 음성 인식에 사용할 마이크를 결정하고, 상기 결정된 마이크가 음성 인식 마이크로 활성화될 수 있다.
실시 예로, 상기 좌석 별 탑승 정보에 기반하여 상기 활성화된 마이크의 입력 신호 레벨에 가중치가 부여될 수 있다.
실시 예로, 상기 장치는 상기 영상 정보에 기반하여 운전자 시선을 인식하고, 상기 인식된 시선에 상응하는 좌표를 산출하고, 상기 산출된 좌표에 상응하는 제어 대상을 식별하고, 상기 시선 인식된 시구간에 상응하는 마이크 입력 음성을 분석하여 상기 명령어를 추출하고, 상기 추출된 명령어가 상기 식별된 제어 대상에 적용 가능한 음성 명령인지 판단할 수 있다.
실시 예로, 상기 판단 결과, 상기 추출된 명령어가 상기 음성 명령인 경우, 상기 정보 처리 우선 순위를 조절하고, 상기 추출된 명령어에 상응하는 차량 제어를 수행할 수 있다.
실시 예로, 상기 센싱 정보는 제스처 센싱 정보 및 레인 센싱 정보 중 적어도 하나를 포함할 수 있다.
실시 예로, 상기 장치는 상기 타입 별 수집된 정보를 분석하여 상기 타입 별 우선 순위를 동적으로 조절할 수 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명은 차량 음성 인식 방법 및 장치를 제공하는 장점이 있다.
또한, 본 발명은 기동어 기반의 음성 인식 기능이 탑재된 차량에서 차량 환경에 따라 적응적으로 주변 장치를 활용하여 음성 인식을 수행하는 것이 가능한 차량 음성 인식 방법 및 장치를 제공하는 장점이 있다.
또한, 본 발명의 또 다른 목적은 차량 환경에서 보다 정확하게 기동어를 인식하여 향상된 음성 인식 성능을 제공하는 것이 가능한 차량 음성 인식 방법 및 그를 위한 장치 및 시스템을 제공하는 장점이 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 차량 음성 인식 장치의 구조를 설명하기 위한 블록도이다.
도 2는 본 발명의 실시 예에 따른 차량 음성 인식 장치에서의 사용자 제어 명령을 인식하는 절차를 보여주는 도면이다.
도 3 내지 6은 본 발명의 일 실시 예에 따른 차량 음성 인식 방법을 설명하기 위한 순서도이다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 도 1 내지 도 6을 참조하여, 본 발명의 실시 예들을 구체적으로 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 차량 음성 인식 장치의 구조를 설명하기 위한 블록도이다.
도 1을 참조하면, 차량 음성 인식 장치(100)는 크게 정보 수집부(110), 상태 판단부(120), 정보 분석부(130), 학습 처리부(140), 저장부(150)를 포함하여 구성될 수 있다.
정보 수집부(110)는 음성 정보 입력 모듈(111), 차량 정보 입력 모듈(112), 센서 정보 입력 모듈(113) 및 영상 정보 입력 모듈(114)를 포함하여 구성될 수 있다.
음성 정보 입력 모듈(111)은 차량에 구비된 적어도 하나의 마이크(160)를 통해 입력되는 음성 신호를 수신할 수 있다. 마이크(150)는 좌석 위치 별 구비될 수 있다. 일 예로, 마이크(150)는 운전석 마이크, 조수석 마이크, 적어도 하나의 후석 마이크를 포함할 수 있다.
차량 정보 입력 모듈(112)은 차량에 구비된 각종 전자 제어 유닛(Electric Control Unit, 170) 등으로부터 각종 차량 정보를 입력 받을 수 있다.
일 예로, 차량 정보는 주차 및 정차 여부에 관한 정보, 주행 속도 정보, 창문 및 썬루프 개폐 정보, 와이퍼 구동 정보, 공조기 구동 상태 정보, 좌석 탑승 정보 등을 포함할 수 있으나 이에 한정되지는 않는다.
여기서, 공조기 구동 상태는 송풍 세기(1단/2단/3단/…), 송풍 방향(상/중/하) 등에 관한 정보를 포함할 수 있으며, 좌석 별 구비된 마이크로 입력되는 노이즈 분석을 위해 활용될 수 있다.
일 예로, 운전석의 공조 방향이 상이고, 송풍 세기가 3단 이상인 경우 운전석에 구비된 마이크로 입력되는 음성 정보에 대한 신뢰도는 일정 수준 하향 조정될 수 있다.
일 예로, 운전석 마이크 및 조수석(또는 보조석) 마이크로 입력되는 신호에 대한 음성 인식 결과의 신뢰도 차이가 기준 범위 이내인 경우, 공조의 영향을 덜 받는 마이크에 상응하는 음성 인식 결과가 사용될 수 있다.
일 예로, 썬루프 및(또는) 창문이 오픈 상태인 경우, 마이크를 통해 입력되는 음성 정보에 대한 신뢰도가 하향 조절될 수 있다.
만약, 음성 정보에 대한 신뢰도가 기준치 이하인 경우, 음성 인식된 기동어 및(또는) 명령어는 차량에 의해 무시될 수 있다.
센싱 정보 입력 모듈(113)는 차량에 구비된 각종 센서(180)로부터 각종 센싱 정보를 수집할 수 있다. 일 예로, 센싱 정보는 레인 센서에 의해 측정된 레인(강우) 센싱 정보, 제스처 센서에 의해 감지된 제스처 센싱 정보, 충격 센서에 의해 측정된 충격 센싱 정보 등을 포함할 수 있으나 이에 한정되지는 않는다.
영상 정보 입력 모듈(114)는 차량에 구비된 적어도 하나의 카메라(190)를 통해 촬영된 영상 정보를 입력 받을 수 있다.
음성 정보 입력 모듈(111), 차량 정보 입력 모듈(112), 센서 정보 입력 모듈(113) 및 영상 정보 입력 모듈(114)에 의해 수집된 정보는 각각 저장부(150)의 음성 정보 기록 모듈(151), 차량 정보 기록 모듈(152), 센싱 정보 기록 모듈(154) 및 영상 정보 기록 모듈(154)에 기록되어 유지될 수 있다.
상태 판단부(120)는 저장부(150)에 기록된 각종 정보에 기반하여 각종 상태를 판단할 수 있다.
실시 예로, 상태 판단부(120)는 음성 상태 판단 모듈(121), 주행 상태 판단 모듈(122), 차량 상태 판단 모듈(123) 및 시선 상태 판단 모듈(124)를 포함하여 구성될 수 있다.
음성 상태 판단 모듈(121)은 각각의 마이크(160)를 통해 입력된 신호의 전기적 세기 또는 레벨을 측정하고, 입력 신호의 세기 또는 레벨이 소정 기준치 이상인 마이크의 위치를 식별할 수 있다. 일 예로, 음성 상태 판단 모듈(121)는 기준치 이상의 입력 신호 세기가 감지되면, 해당 마이크를 음성 인식 대상 마이크로 결정할 수 있다.
주행 상태 판단 모듈(122)은 ECU(170)로부터 수집된 각종 정보에 기초하여 정차/주차/주행 상태인지를 식별하고, 주행 상태인 경우, 현재 주행 속도를 판단할 수 있다. 여기서, 현재 주행 속도는 일정 속도 구간으로 분류될 수 있다. 일 예로, 속도 구간은 저속 구간(30km/h미만), 중속 구간(30km/h이상 60km/h미만), 고속 구간(60km/h이상 90km/h미만) 및 초고속 구간(90km/h이상)으로 분류될 수 있으나 이에 한정되지는 않는다.
차량 상태 판단 모듈(123)은 ECU(170)로부터 수집된 각종 정보에 기초하여 공조 방향 및 세기, 창문 개폐 상태, 썬루프 개폐 상태, 좌석 별 탑승 상태, 강우 상태 등을 판단할 수 있다. 차량 상태 판단 모듈(123)은 음성 인식 인식률에 영향을 주는 항목들에 대한 상태를 실시간 모니터링할 수 있다.
시선 상태 판단 모듈(124)은 카메라(190)에 의해 촬영된 영상 정보에 기초하여 운전자의 시선 상태를 인지할 수 있다. 일 예로, 시선 상태 판단 모듈(124)은 운전자가 차량 내부의 특정 위치를 일정 시간 동안 주시하고 있는지를 인지할 수 있다.
정보 분석부(130)는 상태 판단부(120)의 각종 상태 판단 결과에 기초하여 세부 정보 분석 작업을 수행할 수 있다.
실시 예로, 정보 분석부(130)는 음성 정보 분석 모듈(131), 차량 정보 분석 모듈(132), 센싱 정보 분석 모듈(133) 및 영상 정보 분석 모듈(134)을 포함하여 구성될 수 있다.
음성 정보 분석 모듈(131)은 마이크 위치 별 입력 레벨을 소정 임계치와 비교하여 음성 인식에 사용할 마이크를 식별하여 활성화시킬 수 있다.
차량 정보 분석 모듈(132)은 좌석 별 탑승 정보 등의 차량 상태 정보에 기반하여 각 마이크 입력 레벨에 대한 가중치를 결정할 수 있다. 일 예로, 탑승 좌석에 배치된 마이크 입력 레벨이 탑승하지 않은 좌석에 배치된 마이크의 입력 레벨보다 높은 가중치가 부여될 수 있다.
음성 정보 분석 모듈(131)은 결정된 가중치에 따라 음성 인식을 처리할 수 있다.
여기서, 음성 인식 절차는 (a) 해당 마이크 입력 신호로부터 음성 신호 및(또는) 음성 신호의 특성을 추출하는 단계, (b) 추출된 음성 신호 및(또는) 음성 특성에 기초하여 의미-즉, 단어, 문장 등-를 분석하는 단계 및 (c) 분석된 의미에 기초하여 기동어 및(또는) 명령어를 추출하는 단계를 포함할 수 있다.
센싱 정보 분석 모듈(133)은 제스처 센싱 정보 및 레인 센싱 정보 등에 기반하여 음성 정보와 센싱 정보의 신뢰도를 동적으로 제어할 수 있다.
일 예로, 센싱 정보 분석 모듈(133)은 센싱 정보에 기초하여 음성 정보의 우선 순위 가중치를 조절할 수 있다. 일 예로, 음성 정보에 대해 조절된 우선 순위 가중치가 소정 기준치 이하인 경우, 음성 정보의 사용이 배제하고, 센싱 정보 및(또는) 영상 정보에 기반하여 사용자의 제어 명령이 인식될 수 있다. 실시 예에 따른 센싱 정보는 강우 센싱 정보를 포함할 있으며, 강우 여부 및 강우량의 변화에 따라 동적으로 음성 정보에 대한 우선 순위 가중치를 조절할 수 있다. 여기서, 우선 순위 가중치가 높은 정보가 사용자의 제어 명령 판단을 위해 우선적으로 활용될 수 있다. 일 예로, 우선 순위 가중치가 일정 수준 이상이 복수개의 정보가 연계되어 사용자의 제어 명령 판단에 활용될 수도 있다. 다른 실시 예에, 우선 순위 가중치가 일정 수준 이하인 정보는 사용자의 제어 명령 판단에 배제되어 활용되지 않을 수도 있다.
영상 정보 분석 모듈(134)은 운전자의 시선을 인식하고, 인식된 시선 정보에 기반하여 운전자가 어떤 기능을 주시하고 있는지 분석할 수 있다.
영상 정보 분석 모듈(134)은 음성 정보 분석 모듈(131)과 연계되어 음성 및 영상 정보의 신뢰도를 향상시킬 수 있다.
일 예로 영상 정보 분석 모듈(134)은 차량 제어 또는 차량 내 구비된 시스템-예를 들면, AVN(Audio Video Navigation)- 제어를 위한 운전자의 시선이 인식된 경우, 음성 정보 분석 모듈(131)과 연계하여 해당 시선 인식 구간에 상응하는 음성 입력을 분석함으로써, 사용자의 음성이 일반 대화 음성 인지 음성 명령인지를 분석할 수 있다.
학습 처리부(140)는 정보 분석부(130)의 정보 분석 결과에 기초하여 연계 정보를 결정하고, 결정된 연계 정보에 기초하여 시나리오를 구성하여 사용자의 차량 제어 명령을 최종 인식할 수 있다.
실시 예에 따른 학습 처리부(140)는 분석 결과 수집 모듈(141), 분석 정보 연계 모듈(142), 시나리오 구성 모듈(143) 및 명령 인식 및 처리 모듈(144)을 포함하여 구성될 수 있다.
분석 결과 수집 모듈(141)은 정보 분석부(130)로부터 정보 타입 별 분석 정보를 수집할 수 있다.
분석 정보 연계 모듈(142)은 수집된 분석 정보에 기초하여 어떠한 정보를 상호 연계할 것인지를 결정할 수 있다. 일 예로, 음성 정보 분석 결과와 차량 정보 분석 결과가 상호 연계될 수 있다. 다른 예로, 음성 정보 분석 결과와 영상 정보 분석 결과가 상호 연계될 수 있다. 또 다른 예로, 음성 정보 분석 결과와 센서 정보 분석 결과가 상호 연계될 수도 있다. 또 다른 예로, 차량 정보 분석 결과를 기반으로 음성 정보, 영상 정보 및 센서 정보 중 적어도 하나에 대한 분석 결과가 적응적으로 연계될 수도 있다.
분석 정보 연계 모듈(142)은 미리 설정된 정보 처리 우선 순위 및 분석 정보의 존재 여부에 기초하여 동적으로 연계 대상을 결정할 수 있다.
시나리오 구성 모듈(143)은 결정된 연계 대상에 기반하여 사용자 제어 명령 판단을 위한 시나리오를 구성할 수 있다.
명령 인식 및 처리 모듈(144)는 결정된 시나리오에 따라 사용자 제어 명령을 인식하고, 인식된 제어 명령에 따라 해당 장치 및(또는) 시스템을 기동시키거나 제어할 수 있다.
도 2는 본 발명의 실시 예에 따른 차량 음성 인식 장치에서의 사용자 제어 명령을 인식하는 절차를 보여주는 도면이다.
도 2를 참조하면, 각각의 정보 타입은 미리 설정된 정보 처리 우선 순위를 가질 수 있다.
일 예로, 정보 처리 우선 순위는 음성 정보 > 차량정보 > 영상 정보 > 센서 정보 순으로 정의될 수 있으나, 이는 하나의 실시 예에 불과하여, 당업자의 설계에 따라 정보 처리 우선 순위는 상이하게 정의되어 적용될 수 있다.
도면 번호 210을 참조하면, 음성 정보 분석 모듈(131)에 의해 산출된 음성 정보 분석 결과와 차량 정보 분석 모듈(132)에 의해 산출된 차량 정보 분석 결과는 상호 연계되어 음성 인식 처리가 수행될 수 있다. 즉, 좌석 별 음성 입력 레벨과 운전자 탑승 여부에 따라 마이크 별 입력 레벨에 가중치를 부여하여 음성 인식 처리를 수행할 수 있다.
일 예로, 음성 정보 분석 모듈(131)은 운전석, 보조석, 후석 좌측 및 우측에 구비된 마이크에서의 음성 입력 레벨이 임계치 이상인 경우, 입력 음성 분석을 활성화시키고, 차량 정보 분석 모듈(132)은 좌석 별 탑승 정보를 활용하여 입력 레벨의 가중치를 부여할 수 있다.
도면 번호 220을 참조하면, 음성 정보 분석 모듈(131)에 의해 산출된 음성 정보 분석 결과와 영상 정보 분석 모듈(134)에 의해 산출된 영상 정보 분석 결과는 상호 연계되어 입력된 음성 신호가 일반 대화 음성인지 음성 명령인지가 추가적으로 분석될 수 있다.
일 예로, 영상 정보 분석 모듈(134)은 운전자의 시선 정보를 활용하여 차량의 어떠한 기능-예를 들면, 인포테인먼트 기능, 공조 기능 등-을 보고 있는지 식별할 수 있으며, 식별된 시선 인식 정보와 음성 정보를 활용하여 입력된 음성 신호가 일반 대화 음성인지 음성 명령인지가 분석할 수 있다.
도면 번호 230을 참조하면, 음성 정보 분석 모듈(131)에 의해 산출된 음성 정보 분석 결과와 센서 정보 분석 모듈(133)에 의해 산출된 센서 정보 분석 결과는 상호 연계되어 음성 인식 분석 정보에 대한 가중치가 부여될 수 있다.
일 예로, 센서 정보 분석 모듈(133)은 제스처 인식 정보와 레인 센싱 정보 등을 활용하여 음성 정보와 센서 정보의 신뢰도를 향상시킬 수 있다.
일 예로, 레인 센서의 센싱 값에 기반하여 강수량이 측정될 수 있으며, 측정된 강수량에 따라 음성 인식 분석 정보에 대한 가중치를 동적으로 조절될 수 있다. 여기서, 가중치가 높을수록 사용자 제어 명령 판단에 보다 중요하게 활용될 수 있다.
실시 예로, 상기 도면 번호 220의 연계 결과와 상기 도면 번호 230의 연계 결과는 다시 상호 연계되어 사용자의 제어 명령 판단에 활용될 수도 있다.
실시 예로, 차량 음성 인식 장치(100)는 차량 정보를 기반으로 음성 정보/영상 정보/센서 정보를 미리 정의된 정보 처리 우선 순위에 따라 적응적으로 활용하여 음성 인식 인식률 및(또는) 사용자 제어 명령 인식률을 향상시킬 수 있다.
도 3은 본 발명의 일 실시 예에 따른 차량 음성 인식 방법을 설명하기 위한 순서도이다.
상세하게 도 3은 음성 정보와 차량 정보를 연계하여 음성 인식을 수행하는 예시적인 방법을 보여준다.
이하 설명의 편의를 상기 차량 음성 인식 장치(100)를 간단히, 장치(100)와 혼용하여 사용하기로 한다.
도 3을 참조하면, 장치(100)는 차량에 배치된 마이크의 위치 별 입력 신호 레벨을 모니터링할 수 있다(S310).
장치(100)는 입력 신호 레벨이 기준치 이상이 마이크를 식별할 수 있다(S320).
장치(100)는 식별된 마이크로 입력되는 음성 신호에 대한 분석을 활성화시킬 수 있다(S330).
장치(100)는 좌석 별 탑승 상태 정보에 기반하여 음성 분석이 활성화된 마이크의 입력 신호 레벨에 대한 가중치를 부여할 수 있다(S340).
장치(100)는 가중치가 부여된 마이크 입력 신호에 대한 음성 인식을 수행하여 기동어 및(또는) 명령어를 추출할 수 있다(S350).
장치(100)는 추출된 기동어 및(또는) 명령어에 상응하는 차량 제어 동작이 수행되도록 제어할 수 있다(S360).
도 4는 본 발명의 다른 실시 예에 따른 차량 음성 인식 방법을 설명하기 위한 순서도이다.
도 4를 참조하면, 장치(100)는 마이크 위치 별 입력 신호 레벨을 측정할 수 있다(S410).
장치(100)는 입력 신호 레벨이 기준치 이상인 마이크를 식별할 수 있다(S420).
장치(100)는 식별된 마이크에 대한 음성 분석을 활성화시킬 수 있다(S430).
상기한 410 단계 내지 430 단계를 통해 필요한 마이크만을 활성화하여 음성 인식을 수행하므로, 불필요한 음성 분석을 통한 장치(100)의 과부하 및 부정확한 음성 인식으로 인한 오동작을 미연에 방지할 수 있는 장점이 있다.
일 예로, 차량 내 구비된 복수의 마이크 중 2개의 마이크를 통해 입력되는 음성 신호 레벨이 소정 임계치 이상이고, 두 마이크 사이의 입력 신호 레벨 차이가 허용 오차의 범위 이내인 경우, 장치(100)는 음성 정보 이외의 다른 정보-예를 들면, 차량 정보, 영상 정보 및 센서 정보 중 적어도 하나를 포함함-에 기반하여 두 마이크 입력에 대한 유효성을 판단할 수 있다.
일 예로, 장치(100)는 제스처 인식 정보 또는 시선 인식 정보 등에 기반하여 마이크 입력 신호에 대한 우선 순위를 부여할 수 있다.
장치(100)는 카메라 촬영된 영상 정보에 기반하여 운전자 시선을 인식할 수 있다(S440).
장치(100)는 인식된 시선에 상응하는 좌표를 산출할 수 있다(S450).
장치(100)는 산출된 좌표에 상응하는 제어 대상을 식별할 수 있다(S460).
일 예로, 제어 대상은 인포테인먼트(AVN), 클러스터, 차량에 구비된 각종 제어 버튼 등을 포함할 수 있으나, 이에 한정되지는 않는다.
장치(100)는 시선 인식된 시구간에 상응하는 음성 입력 신호를 분석하여 기동어 및(또는) 명령어를 추출할 수 있다(S470).
장치(100)는 추출된 기동어 및(또는) 명령어가 식별된 제어 대상에 적용 가능한지 판단할 수 있다(S480).
판단 결과, 적용 가능한 경우, 장치(100)는 추출된 기동어 및(또는) 명령어에 따라 차량 제어 동작을 수행할 수 있다(S490).
상기 판단 결과, 적용 가능하지 않은 경우, 장치(100)는 추출된 기동어 및(또는) 명령어를 일반 대화어로 판단하여 차량 제어 동작을 수행하지 않을 수 있다.
도 5는 본 발명의 또 다른 실시 예에 따른 차량 음성 인식 방법을 설명하기 위한 순서도이다.
도 5를 참조하면, 장치(100)는 차량 상태 정보를 수집할 수 있다(S510). 여기서, 차량 상태 정보는 좌석 별 탑승 상태 정보일 수 있으나, 이에 한정되지는 않는다.
장치(100)는 수집된 차량 상태 정보에 기반하여 좌석 별 배치된 마이크에 대한 신뢰도를 결정할 수 있다(S520). 일 예로, 탑승한 좌석에 상응하는 마이크 신뢰도가 탑승하지 않은 좌석에 상응하는 마이크 신뢰도보다 높게 결정될 수 있다. 실시 예로, 장치(100)는 좌석 별 미리 설정된 우선 순위에 더 기반하여 마이크 신뢰도를 결정할 수도 있다. 일 예로, 운전석>조수석>후석 순으로 우선 순위가 부여될 수 있다. 즉, 운전석과 조수석에 사람이 탑승한 경우, 운전석에 배치된 마이크가 조수석에 위치한 마이크보다 높은 신뢰도를 가지도록 결정될 수 있다.
장치(100)는 결정된 신뢰도에 기반하여 음성 인식에 사용할 마이크를 결정할 수 있다(S530).
장치(100)는 결정된 마이크를 통해 입력되는 음성 신호에 대한 음성 인식을 수행하여 기동어 및(또는) 명령어를 추출할 수 있다(S540).
장치(100)는 추출된 기동어 및(또는) 명령어에 상응하는 차량 제어 동작을 수행할 수 있다(S550).
도 6은 본 발명의 또 다른 실시 예에 따른 차량 음성 인식 방법을 설명하기 위한 순서도이다.
도 6을 참조하면, 장치(100)는 차량에 장착된 각종 센서로부터 센싱 정보를 수집할 수 있다(S610).
장치(100)는 수집된 센싱 정보에 기반하여 음성 정보에 대한 우선 순위 가중치를 결정할 수 있다(S620).
장치(100)는 음성 정보에 상응하여 결정된 우선 순위 가중치를 소정 기준치 이하인지 판단할 수 있다(S630).
판단 결과, 기준치 이하이면, 장치(100)는 음성 정보를 배제하고, 영상 정보에 대한 우선 순위 가중치를 상향 조정할 수 있다(S640).
장치(100)는 영상 정보에 대한 우선 순위 가중치가 상향 조정됨에 따라 영상 정보를 분석하고, 영상 정보 분석 결과에 기초하여 사용자의 제어 명령을 식별하고, 식별된 제어 명령에 따른 차량 제어 동작을 수행할 수 있다(S650).
상기한 530 단계의 판단 결과, 음성 정보에 대한 우선 순위 가중치가 기준치를 초과하는 경우, 장치(100)는 음성 정보를 분석하고, 음성 정보 분석 결과에 기초하여 명령어 및(또는) 기동어를 추출할 수 있다(S660).
장치(100)는 추출된 명령어 및(또는) 기동어에 따라 차량 제어 동작을 수행할 수 있다(S670).
이하에서는 장치(100)에서의 수집된 정보에 기초한 시나리오를 구성하는 예를 간단히 설명하기로 한다.
실시 예에 따른 장치(100)는 운전석을 제외한 나머지 좌석 미탑승 상태에서, 라디오, 네비게이션 등의 오디오 기기의 출력이 차량 내 구비된 복수의 마이크를 통해 입력되면, 복수의 마이크를 통해 기동어를 인식할 수 있다. 이 경우, 장치(100)는 해당 기동어를 주변 노이즈에 의한 오인식 결과-즉, False Wakeup-로 판단할 수 있다. 즉, 미디어, 라디오 등에서 들려오는 소리는 여러 마이크에 비슷한 레벨로 입력되므로 동시에 모든 마이크에서 기동어가 인식될 수 있다. 따라서, 동시에 모든 마이크에서 동일한 기동어 및(또는) 명령어가 인식된 경우, 장치(100)는 해당 기동어 및(또는) 명령어가 오인식된 것으로 판단할 수 있다.
전좌석 탑승 및 창문이 열린 상태에서 운전자가 소정 차량 제어 명령을 발화할 수 있다. 만약, 외부 노이즈로 인해 음성 인식 신뢰도가 기준치 보다 낮을 경우 인식된 명령어는 자동 오인식 처리될 수 있다. 하지만, 본 발명에 따른 차량(100)은 외부 노이즈로 인한 음성 인식 신뢰도가 기준치 이하인 경우, 센서 정보 및(또는) 영상 정보를 추가적으로 분석하여 운전자에 의해 발화된 제어 명령이 오인식으로 판단되는 것을 미연에 방지할 수 있다.
일 예로, 운전자가 인포테인먼트를 보고 있거나, 특정 제스처를 수행하는 것으로 인식된 경우, 음성 인식 신뢰도 값을 향상시켜 운전자 발화 명령을 정상적으로 인식할 수 있다.
이상에서 설명한 바와 같이, 본 발명에 따른 차량 음성 인식 장치(100)는 수집된 다양한 정보에 기초하여 상호 연계할 정보를 동적으로 결정하고, 결정된 연계 정보에 따라 동적으로 시나리오 구성한 후 분석하여 사용자의 제어 명령을 보다 정확하게 인지할 수 있는 장점이 있다.
본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리 및/또는 스토리지)에 상주할 수도 있다.
예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 차량 음성 인식 방법에 있어서,
    타입 별 정보를 수집하는 단계;
    상기 타입에 상응하여 미리 정의된 정보 처리 우선 순위에 기반하여 음성 인식을 위해 연계할 정보를 결정하는 단계;
    상기 결정된 정보를 분석하여 마이크를 통해 입력된 신호에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식을 통해 기동어 및(또는) 명령어를 추출하여 차량을 제어하는 단계
    를 포함하는 차량 음성 인식 방법.
  2. 제1항에 있어서,
    상기 타입 별 수집된 정보는 음성 정보, 차량 정보, 영상 정보, 센싱 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  3. 제2항에 있어서,
    상기 차량은 복수의 상기 마이크를 구비하고,
    상기 타입 별 수집된 정보 중 적어도 하나에 기반하여 상기 마이크를 통해 수행된 음성 인식 결과의 신뢰도가 동적으로 조절되는 것을 특징으로 하는 차량 음성 인식 방법.
  4. 제3항에 있어서,
    상기 타입 별 수집된 정보에 기반하여 상기 복수의 마이크 중 상기 음성 인식을 위해 활성화될 마이크를 결정하는 단계; 및
    상기 타입 별 수집된 정보에 기반하여 상기 활성화된 마이크 입력 신호 레벨에 대한 가중치를 적용하는 단계
    를 더 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  5. 제2항에 있어서,
    상기 마이크는 상기 차량에 구비된 좌석 별 배치되고,
    상기 마이크 별 입력 신호 레벨을 측정하는 단계;
    상기 측정된 입력 신호 레벨과 소정 임계치를 비교하여 상기 음성 인식에 사용할 마이크를 결정하는 단계; 및
    상기 결정된 마이크를 음성 인식 마이크로 활성화시키는 단계
    를 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  6. 제5항에 있어서,
    상기 좌석 별 탑승 정보에 기반하여 상기 활성화된 마이크의 입력 신호 레벨에 가중치를 부여하는 것을 특징으로 하는 차량 음성 인식 방법.
  7. 제2항에 있어서,
    상기 영상 정보에 기반하여 운전자 시선을 인식하는 단계;
    상기 인식된 시선에 상응하는 좌표를 산출하는 단계;
    상기 산출된 좌표에 상응하는 제어 대상을 식별하는 단계;
    상기 시선 인식된 시구간에 상응하는 마이크 입력 음성을 분석하여 상기 명령어를 추출하는 단계; 및
    상기 추출된 명령어가 상기 식별된 제어 대상에 적용 가능한 음성 명령인지 판단하는 단계
    를 더 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  8. 제7항에 있어서,
    상기 판단 결과, 상기 음성 명령인 경우, 상기 정보 처리 우선 순위를 조절하고, 상기 추출된 명령어에 상응하는 차량 제어를 수행하는 것을 특징으로 하는 차량 음성 인식 방법.
  9. 제2항에 있어서,
    상기 센싱 정보는 제스처 센싱 정보 및 레인 센싱 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  10. 제9항에 있어서,
    상기 타입 별 수집된 정보를 분석하여 상기 타입 별 정보 처리 우선 순위를 동적으로 조절하는 단계를 더 포함하는 것을 특징으로 하는 차량 음성 인식 방법.
  11. 차량 내부 기기와 연동하여 타입 별 정보를 수집하는 정보 수집부;
    상기 타입 별 수집된 정보에 기초하여 상태 정보를 생성하는 상태 분석부;
    상기 타입 별 정보 처리 우선 순위에 기반하여 음성 인식에 사용할 정보를 분석하는 정보 분석부; 및
    상기 분석된 정보에 기초하여 상기 음성 인식을 위해 연계할 정보를 결정하고, 상기 결정된 연계 정보에 기초하여 시나리오를 구성하여 기동어 및(또는) 명령어를 추출하여 차량을 제어하는 학습 처리부
    를 포함하는 차량 음성 인식 장치.
  12. 제11항에 있어서,
    상기 타입 별 수집되는 정보는 음성 정보, 차량 정보, 영상 정보, 센싱 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 음성 인식 장치.
  13. 제12항에 있어서,
    상기 차량은 복수의 마이크를 구비하고,
    상기 타입 별 수집된 정보에 기반하여 상기 마이크에 상응하여 수행된 음성 인식 결과의 신뢰도가 동적으로 결정되는 것을 특징으로 하는 차량 음성 인식 장치.
  14. 제13항에 있어서,
    상기 타입 별 수집된 정보에 기반하여 상기 복수의 마이크 중 상기 음성 인식을 위해 활성화될 마이크가 결정되고, 상기 활성화된 마이크 입력 신호 레벨에 가중치를 적용하는 것을 특징으로 하는 차량 음성 인식 장치.
  15. 제12항에 있어서,
    상기 마이크는 상기 차량에 구비된 좌석 별 배치되고,
    상기 마이크 별 입력 신호 레벨을 측정하고, 상기 측정된 입력 신호 레벨과 소정 임계치를 비교하여 상기 음성 인식에 사용할 마이크를 결정하고, 상기 결정된 마이크를 음성 인식 마이크로 활성화시키는 것을 특징으로 하는 차량 음성 인식 장치.
  16. 제15항에 있어서,
    상기 좌석 별 탑승 정보에 기반하여 상기 활성화된 마이크의 입력 신호 레벨에 가중치를 부여하는 것을 특징으로 하는 차량 음성 인식 장치.
  17. 제12항에 있어서,
    상기 영상 정보에 기반하여 운전자 시선을 인식하고,
    상기 인식된 시선에 상응하는 좌표를 산출하고,
    상기 산출된 좌표에 상응하는 제어 대상을 식별하고,
    상기 시선 인식된 시구간에 상응하는 마이크 입력 음성을 분석하여 상기 명령어를 추출하고,
    상기 추출된 명령어가 상기 식별된 제어 대상에 적용 가능한 음성 명령인지 판단하는 것을 특징으로 하는 차량 음성 인식 장치.
  18. 제17항에 있어서,
    상기 판단 결과, 상기 추출된 명령어가 상기 음성 명령인 경우, 상기 정보 처리 우선 순위를 조절하고, 상기 추출된 명령어에 상응하는 차량 제어를 수행하는 것을 특징으로 하는 차량 음성 인식 장치.
  19. 제12항에 있어서,
    상기 센싱 정보는 제스처 센싱 정보 및 레인 센싱 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 차량 음성 인식 장치.
  20. 제19항에 있어서,
    상기 타입 별 수집된 정보를 분석하여 상기 타입 별 우선 순위를 동적으로 조절하는 것을 특징으로 하는 차량 음성 인식 장치.
KR1020200052404A 2020-04-29 2020-04-29 차량 음성 인식 방법 및 장치 KR20210133600A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200052404A KR20210133600A (ko) 2020-04-29 2020-04-29 차량 음성 인식 방법 및 장치
US17/015,792 US11580958B2 (en) 2020-04-29 2020-09-09 Method and device for recognizing speech in vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200052404A KR20210133600A (ko) 2020-04-29 2020-04-29 차량 음성 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210133600A true KR20210133600A (ko) 2021-11-08

Family

ID=78293224

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200052404A KR20210133600A (ko) 2020-04-29 2020-04-29 차량 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US11580958B2 (ko)
KR (1) KR20210133600A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
EP2229576B1 (en) * 2007-12-05 2016-04-13 Visteon Global Technologies, Inc. Vehicle user interface systems and methods
JP4609527B2 (ja) * 2008-06-03 2011-01-12 株式会社デンソー 自動車用情報提供システム
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US20110202338A1 (en) * 2010-02-18 2011-08-18 Philip Inghelbrecht System and method for recognition of alphanumeric patterns including license plate numbers
US8762852B2 (en) * 2010-11-04 2014-06-24 Digimarc Corporation Smartphone-based methods and systems
EP2798632A4 (en) * 2011-12-29 2015-10-07 Intel Corp DIRECT ACCESS TO A GRAMMAR
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
WO2014002128A1 (ja) * 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US9639322B2 (en) * 2013-01-09 2017-05-02 Mitsubishi Electric Corporation Voice recognition device and display method
KR101491354B1 (ko) * 2013-11-25 2015-02-06 현대자동차주식회사 음성인식 장치 및 방법
KR101551037B1 (ko) * 2013-12-31 2015-09-07 현대자동차주식회사 차량에서의 정보 제공을 위한 시스템
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9583105B2 (en) * 2014-06-06 2017-02-28 Microsoft Technology Licensing, Llc Modification of visual content to facilitate improved speech recognition
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
KR101677648B1 (ko) * 2014-12-22 2016-11-18 엘지전자 주식회사 차량 제어 장치 및 그 제어 방법
KR102098668B1 (ko) * 2015-05-20 2020-04-08 후아웨이 테크놀러지 컴퍼니 리미티드 발음 위치 및 단말 장치 위치를 결정하는 방법
JP2017211430A (ja) * 2016-05-23 2017-11-30 ソニー株式会社 情報処理装置および情報処理方法
US11273778B1 (en) * 2017-11-09 2022-03-15 Amazon Technologies, Inc. Vehicle voice user interface
KR20200057516A (ko) * 2018-11-16 2020-05-26 현대자동차주식회사 음성명령 처리 시스템 및 방법
US11183185B2 (en) * 2019-01-09 2021-11-23 Microsoft Technology Licensing, Llc Time-based visual targeting for voice commands
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치

Also Published As

Publication number Publication date
US11580958B2 (en) 2023-02-14
US20210343275A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
US9530401B2 (en) Apparatus and method for reporting speech recognition failures
US8285545B2 (en) Voice command acquisition system and method
US10643605B2 (en) Automatic multi-performance evaluation system for hybrid speech recognition
CN103403798B (zh) 声音识别装置及导航装置
WO2017081960A1 (ja) 音声認識制御システム
JP4859982B2 (ja) 音声認識装置
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US9311930B2 (en) Audio based system and method for in-vehicle context classification
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
CN108780644A (zh) 运输工具、用于在语音输入范围内调整允许的语音停顿长度的***和方法
CN110211579B (zh) 一种语音指令识别方法、装置及***
KR20210133600A (ko) 차량 음성 인식 방법 및 장치
US20230315997A9 (en) Dialogue system, a vehicle having the same, and a method of controlling a dialogue system
WO2020079733A1 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP4779000B2 (ja) 音声認識による機器制御装置
JP7392827B2 (ja) 音声認識装置及び音声認識方法
CN111881691A (zh) 一种利用手势增强车载语义解析的***及方法
JP2019191477A (ja) 音声認識装置及び音声認識方法
US20210303263A1 (en) Dialogue system and vehicle having the same, and method of controlling dialogue system
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
US20230290342A1 (en) Dialogue system and control method thereof
US20230267923A1 (en) Natural language processing apparatus and natural language processing method
US20230197076A1 (en) Vehicle and control method thereof
CN116884413A (zh) 一种车载语音防止误唤醒***
JP4459729B2 (ja) 車載音声認識システム