KR20230113081A - 음성 인식 시스템 및 음성 인식 서비스 제공 방법 - Google Patents

음성 인식 시스템 및 음성 인식 서비스 제공 방법 Download PDF

Info

Publication number
KR20230113081A
KR20230113081A KR1020220009548A KR20220009548A KR20230113081A KR 20230113081 A KR20230113081 A KR 20230113081A KR 1020220009548 A KR1020220009548 A KR 1020220009548A KR 20220009548 A KR20220009548 A KR 20220009548A KR 20230113081 A KR20230113081 A KR 20230113081A
Authority
KR
South Korea
Prior art keywords
tap signal
user
signal
voice recognition
tap
Prior art date
Application number
KR1020220009548A
Other languages
English (en)
Inventor
예성수
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020220009548A priority Critical patent/KR20230113081A/ko
Priority to US18/076,207 priority patent/US20230238020A1/en
Priority to CN202211565203.6A priority patent/CN116486821A/zh
Priority to DE102022213306.4A priority patent/DE102022213306A1/de
Publication of KR20230113081A publication Critical patent/KR20230113081A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

개시된 발명은 차량의 사용자 주변의 물체를 두드림으로써 발생되는 탭 신호를 특정 명령에 맵핑시켜 등록하고, 특정 명령을 위한 발화를 주변의 물체를 두드리는 단순한 동작으로 대체함으로써 사용자의 편의성을 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 서비스의 제공 방법을 제공한다.
일 실시예에 따른 음성 인식 시스템은, 차량에 탑승한 사용자의 음성 신호로부터 상기 사용자가 의도하는 제어를 수행하기 위해 필요한 정보를 추출하는 음성 처리 모듈; 상기 사용자가 의도하는 제어를 수행하기 위한 제어 신호를 생성하는 컨트롤 모듈; 및 탭(tap) 신호와 그에 대응되는 명령을 맵핑시켜 저장하는 메모리;를 포함하고, 상기 컨트롤 모듈은, 마이크를 통해 입력된 오디오 신호에 상기 메모리에 저장된 탭 신호가 포함되면, 상기 저장된 탭 신호에 대응되는 명령에 기초하여 상기 제어 신호를 생성한다.

Description

음성 인식 시스템 및 음성 인식 서비스 제공 방법{ SPEECH RECOGNITION SYSTEM AND METHOD FOR PROVIDING SPEECH RECOGNITION SERVICE}
개시된 발명은 사용자 발화에 대응되는 서비스를 제공하는 음성 인식 시스템 및 음성 인식 서비스 제공 방법에 관한 것이다.
음성 인식 시스템은 사용자의 음성을 인식하여 사용자의 의도를 파악하고, 파악된 사용자의 의도에 대응되는 서비스를 제공할 수 있는 시스템이다.
음성 인식 시스템은 특정 장치와 연계되어 사용자 의도에 따라 해당 장치에 대한 제어를 수행하기도 하고, 사용자 의도에 따라 특정 정보를 제공하기도 한다.
최근에는 차량에도 이러한 음성 인식 시스템이 탑재되어 사용자가 음성을 발화하는 것만으로 차량을 제어할 수도 있고, 차량과의 대화를 통해 원하는 정보를 얻거나 원하는 서비스를 제공받을 수도 있다.
이러한 음성 인식 시스템을 이용하여 사용자가 원하는 서비스를 제공받기 위해서는, 사용자의 발화 이후에 사용자의 발화 또는 그에 대응되는 서비스를 확인하고, 서비스를 수행하는데 필요한 추가 정보를 획득하기 위해 여러 차례의 대화를 주고 받아야 하는 경우가 발생할 수 있다.
개시된 발명은 차량의 사용자 주변의 물체를 두드림으로써 발생되는 탭 신호를 특정 명령에 맵핑시켜 등록하고, 특정 명령을 위한 발화를 주변의 물체를 두드리는 단순한 동작으로 대체함으로써 사용자의 편의성을 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 서비스의 제공 방법을 제공한다.
일 실시예에 따른 음성 인식 시스템은, 차량에 탑승한 사용자의 음성 신호로부터 상기 사용자가 의도하는 제어를 수행하기 위해 필요한 정보를 추출하는 음성 처리 모듈; 상기 사용자가 의도하는 제어를 수행하기 위한 제어 신호를 생성하는 컨트롤 모듈; 및 탭(tap) 신호와 그에 대응되는 명령을 맵핑시켜 저장하는 메모리;를 포함하고, 상기 컨트롤 모듈은, 마이크를 통해 입력된 오디오 신호에 상기 메모리에 저장된 탭 신호가 포함되면, 상기 저장된 탭 신호에 대응되는 명령에 기초하여 상기 제어 신호를 생성한다.
상기 탭 신호는, 상기 사용자가 탑승한 차량의 구성요소 또는 상기 사용자의 신체 부위를 포함하는 주변 물체를 두드림(tapping)으로써 발생하는 신호일 수 있다.
전술한 단락들에 있어서, 상기 탭 신호는, 상기 탭 신호의 특징 성분 및 상기 탭 신호에 포함되는 특징 성분의 개수에 의해 정의될 수 있다.
전술한 단락들에 있어서, 상기 탭 신호의 특징 성분은, 상기 사용자가 두드리는 주변 물체의 종류에 따라 달라지고, 상기 탭 신호의 특징 성분의 개수는, 상기 사용자가 상기 주변 물체를 두드리는 횟수에 따라 달라질 수 있다.
전술한 단락들에 있어서, 상기 차량의 구성요소는, 상기 차량의 스티어링 휠, 도어 핸들, 변속 레버 또는 암레스트 중 적어도 하나를 포함할 수 있다.
전술한 단락들에 있어서, 상기 컨트롤 모듈은, 상기 탭 신호를 상기 메모리에 저장하는 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호와 상기 사용자에 의해 선택된 명령을 맵핑(mapping)하여 상기 메모리에 저장할 수 있다.
전술한 단락들에 있어서, 상기 컨트롤 모듈은, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수를 등록하도록 가이드 정보를 생성할 수 있다.
전술한 단락들에 있어서, 상기 컨트롤 모듈은, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하고, 상기 메모리에 상기 특징 성분을 1개 포함하는 탭 신호부터 상기 특징 성분을 N개(N은 2 이상의 정수이고, 임계 개수를 나타냄) 포함하는 탭 신호까지 저장되어 있으면, 다른 탭 신호를 입력하도록 가이드 정보를 생성할 수 있다.
전술한 단락들에 있어서, 상기 컨트롤 모듈은, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수 중 가장 적은 개수를 등록할 수 있다.
전술한 단락들에 있어서, 상기 마이크는, 운전석 마이크와 보조석 마이크를 포함하고, 상기 컨트롤 모듈은, 상기 보조석 마이크를 통해 입력된 오디오 신호에 기초하여 상기 운전석 마이크를 통해 입력된 오디오 신호의 노이즈를 제거할 수 있다.
일 실시예에 따른 음성 인식 서비스 제공 방법은, 차량에 위치하는 마이크에 입력된 오디오 신호를 수신하는 단계; 상기 오디오 신호에 탭 신호가 포함되는지 또는 음성 신호가 포함되는지 판단하는 단계; 상기 오디오 신호에 탭 신호가 포함되면, 상기 탭 신호에 맵핑된 명령을 결정하는 단계; 및 상기 탭 신호에 맵핑된 명령에 대응되는 제어를 수행하기 위한 제어 신호를 생성하는 단계;를 포함한다.
상기 탭 신호는, 상기 사용자가 탑승한 차량의 구성요소 또는 상기 사용자의 신체 부위를 포함하는 주변 물체를 두드림(tapping)으로써 발생하는 신호일 수 있다.
전술한 단락들에 있어서, 상기 탭 신호는, 상기 탭 신호의 특징 성분 및 상기 탭 신호에 포함되는 특징 성분의 개수에 의해 정의될 수 있다.
전술한 단락들에 있어서, 상기 탭 신호의 특징 성분은, 상기 사용자가 두드리는 주변 물체의 종류에 따라 달라지고, 상기 탭 신호의 특징 성분의 개수는, 상기 사용자가 상기 주변 물체를 두드리는 횟수에 따라 달라질 수 있다.
전술한 단락들에 있어서, 상기 차량의 구성요소는, 상기 차량의 스티어링 휠, 도어 핸들, 변속 레버 또는 암레스트 중 적어도 하나를 포함할 수 있다.
전술한 단락들에 있어서, 상기 방법은, 상기 탭 신호를 메모리에 저장하는 등록 모드에서, 마이크를 통해 입력된 탭 신호와 상기 사용자에 의해 선택된 명령을 맵핑(mapping)하여 상기 메모리에 저장하는 단계;를 더 포함할 수 있다.
전술한 단락들에 있어서, 상기 메모리에 저장하는 단계는, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수를 등록하도록 가이드 정보를 생성하는 것을 포함할 수 있다.
전술한 단락들에 있어서, 상기 메모리에 저장하는 단계는, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하고, 상기 메모리에 상기 특징 성분을 1개 포함하는 탭 신호부터 상기 특징 성분을 N개(N은 2 이상의 정수이고, 임계 개수를 나타냄) 포함하는 탭 신호까지 저장되어 있으면, 다른 탭 신호를 입력하도록 가이드 정보를 생성하는 것을 더 포함할 수 있다.
전술한 단락들에 있어서, 상기 메모리에 저장하는 단계는, 상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수 중 가장 적은 개수를 등록하는 것을 더 포함할 수 있다.
전술한 단락들에 있어서, 상기 마이크는, 운전석 마이크와 보조석 마이크를 포함하고, 상기 방법은, 상기 보조석 마이크를 통해 입력된 오디오 신호에 기초하여 상기 운전석 마이크를 통해 입력된 오디오 신호의 노이즈를 제거하는 단계;를 더 포함할 수 있다.
일 측면에 따른 음성 인식 시스템 및 음성 인식 서비스 제공 방법에 의하면, 차량의 사용자 주변의 물체를 두드림으로써 발생되는 탭 신호를 특정 명령에 맵핑시켜 등록하고, 특정 명령을 위한 발화를 주변의 물체를 두드리는 단순한 동작으로 대체함으로써 사용자의 편의성을 향상시킬 수 있다.
도 1 은 일 실시예에 따른 음성 인식 시스템의 블록도이다.
도 2는 일 실시예에 따른 음성 인식 시스템과 연결되는 차량의 블록도이다.
도 3은 일 실시예에 따른 음성 인식 시스템과 차량의 상호 관계를 개략적으로 나타낸 도면이다.
도 4 및 도 5는 차량의 사용자가 일 실시예에 따른 음성 인식 시스템을 통해 원하는 서비스를 제공받는 과정을 나타낸 도면이다.
도 6 및 도 7은 일 실시예에 따른 음성 인식 시스템의 사용자가 탭 신호를 입력하는 동작의 예시를 나타낸 도면이다.
도 8은 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 탭 신호를 등록하는 과정을 나타낸 순서도이다.
도 9는 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 탭 신호의 등록을 위해 차량의 디스플레이에 표시되는 화면의 예시를 나타낸 도면이다.
도 10은 탭 신호로부터 추출되는 특징 성분의 예시를 나타낸 도면이다.
도 11은 일 실시예에 따른 음성 인식 시스템의 메모리에 저장되는 정보의 예시를 나타낸 도면이다.
도 12, 도 13 및 도 14는 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 탭 신호의 등록을 위해 차량의 디스플레이에 표시되는 화면의 예시를 나타낸 도면이다.
도 15는 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 사용자로부터 탭 신호 또는 음성 신호를 수신하여 사용자의 의도에 대응되는 제어를 수행하는 과정을 나타낸 순서도이다.
본 명세서에 기재된 실시예와 도면에 도시된 구성은 개시된 발명의 바람직한 일 예이며, 본 출원의 출원시점에 있어서 본 명세서의 실시예와 도면을 대체할 수 있는 다양한 변형 예들이 있을 수 있다.
또한, 본 명세서에서 사용한 용어는 실시예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.
또한, "~부", "~기", "~블록", "~부재", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어, 상기 용어들은 FPGA(field-programmable gate array)/ASIC(application specific integrated circuit) 등 적어도 하나의 하드웨어, 메모리에 저장된 적어도 하나의 소프트웨어 또는 프로세서에 의하여 처리되는 적어도 하나의 프로세스를 의미할 수 있다.
또한, 본 명세서에서 설명되는 구성요소 앞에 사용되는 "제1~", "제2~"와 같은 서수는 구성요소들을 상호 구분하기 위해 사용되는 것일 뿐, 이들 구성요소들 사이의 연결 순서, 사용 순서, 우선 순위 등의 다른 의미를 갖는 것은 아니다.
각 단계들에 붙여지는 부호는 각 단계들을 식별하기 위해 사용되는 것으로 이들 부호는 각 단계들 상호 간의 순서를 나타내는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
명세서에서 요소들의 리스트를 언급할 때 사용되는 "적어도 하나의~"의 표현은, 요소들의 조합을 변경할 수 있다. 예를 들어, "a, b, 또는 c 중 적어도 하나"의 표현은 오직 a, 오직 b, 오직 c, a 와 b 둘, a와 c 둘, b와 c 둘, 또는 a, b, c 모두의 조합을 나타내는 것으로 이해될 수 있다.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이하에서는 첨부된 도면을 참조하여 차량, 음성 인식 시스템 및 음성 인식 서비스의 제공 방법의 실시예를 상세하게 설명하도록 한다.
도 1 은 일 실시예에 따른 음성 인식 시스템의 블록도이다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 시스템(100)은 사용자의 음성 신호로부터 상기 사용자가 의도하는 제어를 수행하기 위해 필요한 정보를 추출하는 음성 처리 모듈(10)과 사용자가 의도하는 제어를 수행하기 위한 제어 신호를 생성하는 컨트롤 모듈(130)을 포함한다.
음성 처리 모듈(10)은 사용자의 발화를 텍스트로 변환하는 음성 인식 모듈(110)과 텍스트에 대응되는 사용자 의도를 판단하는 자연어 이해 모듈(120)을 포함할 수 있다.
음성 인식 모듈(110)은 STT(Speech to Text) 엔진으로 구현될 수 있고, 사용자 발화에 음성 인식(speech recognition) 알고리즘을 적용하여 텍스트로 변환할 수 있다.
예를 들어, 음성 인식 모듈(110)은 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 사용자 발화에서 특징 벡터를 추출할 수 있다.
그리고, 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 인식 결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model) 또는 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다.
또한, 음성 인식 모듈(110)은 머신 러닝 또는 딥 러닝을 적용한 학습에 기반하여 사용자 발화를 텍스트로 변환하는 것도 가능하다. 당해 실시예에서는 음성 인식 모듈(110)이 사용자 발화를 텍스트로 변환하는 방식에 대해서는 제한을 두지 않는바, 음성 인식 모듈(110)은 전술한 방식 외에도 다양한 음성 인식 기술을 적용하여 사용자 발화를 텍스트로 변환할 수 있다.
자연어 이해 모듈(120)은 텍스트에 포함된 사용자 의도를 판단하기 위해 자연어 이해(Natural Language Understanding: NLU) 기술을 적용할 수 있다. 따라서, 자연어 이해 모듈(120)에는 입력 문장에 대해 NLU 기술을 적용하여 사용자 의도를 판단하는 NLU 엔진이 포함될 수 있다. 여기서, 음성 인식 모듈(110)이 출력한 텍스트가 자연어 이해 모듈(120)에 입력되는 입력 문장이 된다.
예를 들어, 자연어 이해 모듈(120)은 입력 문장으로부터 개체명을 인식할 수 있다. 개체명은 인명, 지명, 조직명, 시간, 날짜, 화폐 등의 고유 명사로서, 개체명 인식은 문장에서 개체명을 식별하고 식별된 개체명의 종류를 결정하는 작업이다. 개체명 인식을 통해 문장에서 중요한 키워드를 추출하여 문장의 의미를 파악할 수 있다.
또한, 자연어 이해 모듈(120)은 입력 문장으로부터 도메인을 결정할 수 있다. 도메인은 사용자 발화의 주제를 식별할 수 있는 것으로서, 예를 들어, 차량 제어, 일정, 날씨 또는 교통 상황 등에 관한 정보 제공, 문자 송신, 내비게이션 등의 다양한 주제를 나타내는 도메인이 입력 문장에 기초하여 결정될 수 있다.
또한, 자연어 이해 모듈(120)은 입력 문장이 갖는 화행을 분석할 수 있다. 화행 분석은 발화의 의도를 분석하는 작업으로, 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 응답을 하는 것인지, 단순한 감정 표현을 하는 것인지 등의 발화의 의도를 파악하는 것이다.
자연어 이해 모듈(120)은 입력 문장으로부터 추출된 도메인, 개체명, 화행 등의 정보에 기초하여 인텐트(intent) 및 해당 인텐트를 수행하는데 필요한 엔티티(entity)를 판단할 수 있다. 예를 들어, 입력 문장이 "에어컨 켜줘"인 경우 도메인은 [차량 제어]가 되고, 인텐트는 [turn on. air conditioner]가 될 수 있다. 여기서, [turn on]은 액션, [air conditioner]는 타겟이 될 수 있고, 해당 인텐트에 대응되는 제어를 수행하기 위해 필요한 엔티티는 [온도, 풍량]이 될 수 있다.
컨트롤 모듈(130)은 사용자의 의도에 대응되는 서비스를 제공하기 위해, 사용자 단말 또는 외부 서버에 결과 처리 신호를 출력할 수 있다. 예를 들어, 사용자의 발화로부터 추출된 인텐트에 대응되는 제어를 수행하기 위한 제어 신호를 생성하여 출력할 수 있다.
사용자 단말은 사용자와 음성 인식 시스템(100) 사이의 게이트 웨이 역할을 수행할 수 있다. 사용자 단말은, 마이크, 스피커, 디스플레이 등의 입출력 인터페이스를 구비한 모바일 기기일 수도 있고, 차량 자체일 수도 있다. 사용자 단말이 모바일 기기인 경우에는, 차량과 모바일 기기가 블루투스 등의 무선 통신 또는 케이블 연결을 통해 상호 연결될 수 있다.
예를 들어, 사용자의 의도에 대응되는 서비스가 차량 관련 제어인 경우에는 해당 제어를 수행하기 위한 제어 신호를 생성하여 사용자 단말에 전달할 수 있다.
또는, 사용자의 의도에 대응되는 서비스가 특정 정보의 제공인 경우에는 해당 정보를 검색하고 검색된 정보를 사용자 단말에 전달할 수 있다. 필요에 따라, 정보의 검색이 다른 외부 서버에서 이루어지는 것도 가능하다.
또는, 사용자의 의도에 대응되는 서비스가 특정 컨텐츠의 제공인 경우에는 해당 컨텐츠를 제공하는 외부 서버에 이를 요청할 수 있다.
또는, 사용자의 의도에 대응되는 서비스가 단순 대화의 지속인 경우에는 사용자의 발화에 대한 응답을 생성하여 음성으로 출력할 수 있다.
전술한 음성 인식 시스템(100)은 전술한 동작을 수행하는 프로그램이 저장된 적어도 하나의 메모리 및 저장된 프로그램을 실행하는 적어도 하나의 프로세서에 의해 구현될 수 있다.
도 1에 도시된 음성 인식 시스템(100)의 구성요소들은 그 동작 또는 기능을 기준으로 구분된 것으로서, 그 전부 또는 일부가 메모리나 프로세서를 공유할 수 있다. 즉, 음성 인식 모듈(110), 자연어 이해 모듈(120) 및 결과 처리 모듈(130)이 반드시 물리적으로 분리된 구성요소를 의미하는 것은 아니다.
도 2는 일 실시예에 따른 음성 인식 시스템과 연결되는 차량의 블록도이고, 도 3은 일 실시예에 따른 음성 인식 시스템과 차량의 상호 관계를 개략적으로 나타낸 도면이다.
도 2를 참조하면, 차량(2)은 사용자 발화가 입력되는 마이크(210), 사용자가 원하는 서비스의 제공을 위해 필요한 음향을 출력하는 스피커(220), 사용자가 원하는 서비스의 제공을 위해 필요한 영상을 표시하는 디스플레이(230), 외부 장치와 통신을 수행하는 통신 모듈(240) 및 전술한 구성요소들 및 기타 차량의 다른 구성요소들을 제어하는 컨트롤러(250)를 포함한다.
마이크(210)는 사용자의 발화를 입력받을 수 있는 차량(2) 내부의 위치에 마련될 수 있다. 사용자는 운전자일 수도 있고, 동승자일 수도 있다. 마이크(221)는 운전자나 앞좌석 동승자의 발화를 입력받기 위해 스티어링 휠, 센터페시아, 헤드라이닝 또는 룸 미러 등의 위치에 마련될 수 있다.
또한, 뒷좌석 동승자의 발화를 입력받기 위해 두 개 이상의 마이크(210)가 마련되는 것도 가능하다. 뒷좌석 동승자의 발화를 입력받기 위한 마이크(210)는 앞좌석의 암레스트 또는 뒷좌석의 암레스트에 마련될 수도 있고, 뒷좌석 도어나, B 필러 또는 C필러에 마련될 수도 있다.
전술한 마이크(210)의 위치는 차량(2)의 실시예에 적용 가능한 예시에 불과하다. 각 위치의 사용자로부터 발화를 입력받을 수만 있으면 되고, 마이크(210)의 위치에 대해 다른 제한은 두지 않는다.
차량(2)은 마이크(220) 외에 수동으로 사용자의 명령을 입력받기 위한 입력 장치(260)도 포함할 수 있다. 입력 장치(260)는 센터페시아의 AVN이 마련된 영역, 기어박스가 마련된 영역 또는 스티어링 휠에 버튼이나 죠그셔틀의 형태로 마련된 입력 장치를 포함할 수 있다.
또한, 동승석에 관한 제어 명령을 입력받기 위해, 각 좌석의 도어에 마련된 입력 장치를 포함할 수도 있고, 앞좌석의 암레스트나 뒷좌석의 암레스트에 마련된 입력 장치를 포함할 수도 있다.
또한, 입력 장치(260)가 디스플레이(230)와 일체형으로 마련되어 터치 스크린을 구현하는 터치 패드를 포함하는 것도 가능하다.
디스플레이(230)는 차량(2)의 센터페시아에 마련되는 AVN 디스플레이, 클러스터 디스플레이 또는 헤드업 디스플레이(HUD: Head Up Display)를 포함할 수 있다. 또는, 뒷좌석의 동승자가 볼 수 있도록 앞좌석의 헤드 뒷면에 마련되는 뒷좌석 디스플레이를 포함할 수도 있고, 차량(2)이 다인승 차량인 경우에는 헤드라이닝에 장착된 디스플레이를 포함할 수도 있다.
디스플레이(230)는 차량(2)에 탑승한 사용자가 시청 가능한 위치에 마련되기만 하면 되고, 디스플레이(230)의 개수나 위치에 대해 다른 제한은 두지 않는다.
통신 모듈(240)은 블루투스, 4G, 5G, 와이파이(wifi) 등의 다양한 무선 통신 방식 중 적어도 하나를 채용하여 다른 장치와 정보를 주고 받을 수 있다. 또는 USB 단자, AUX 단자 등에 연결되는 케이블을 통해 다른 장치와 정보를 주고 받는 것도 가능하다.
예를 들어, 차량(2) 내부에 위치한 모바일 기기와 통신하여 모바일 기기가 획득하거나 모바일 기기에 저장된 정보(사용자 영상, 사용자 발화, 연락처, 일정 등)를 수신할 수도 있고, 서버(1)와 통신하여 사용자 발화를 전달하고 사용자가 원하는 서비스를 제공하기 위해 필요한 신호를 수신할 수도 있다. 또한, 차량(2)에 연결된 모바일 기기를 통해 서버(1)와 필요한 신호를 주고 받는 것도 가능하다.
그 외에도 차량(2)에는 길 안내를 수행하는 내비게이션 장치, 내부 온도를 조절하는 공조 장치, 윈도우의 개방/폐쇄를 조절하는 윈도우 조절 장치, 좌석을 가열하는 시트 히팅 장치, 좌석의 위치, 높이 또는 각도를 조절하는 시트 조절 장치 및 내부의 조도를 조절하는 조명 장치를 포함할 수 있다.
전술한 장치들은 차량(2)에 관련된 편의기능을 제공하는 것으로서, 차종 및 옵션에 따라 일부가 생략될 수도 있다. 또한, 전술한 장치들 외에 다른 장치들이 더 포함될 수도 있음은 물론이다.
컨트롤러(250)는 마이크(220)를 온/오프할 수 있고, 마이크(220)에 입력된 음성을 처리하거나 저장하거나 통신부(240)를 통해 다른 장치로 전달할 수 있다.
또한, 컨트롤러(250)는 디스플레이(230)에 영상이 표시되도록 제어할 수 있고, 스피커(220)에 음향이 출력되도록 제어할 수 있다.
또한, 컨트롤러(250)는 차량(2)과 관련된 다양한 제어를 수행할 수 있다. 예를 들어, 마이크(220)나 입력부(270)를 통해 입력된 사용자의 명령에 따라 내비게이션 장치, 공조 장치, 윈도우 조절 장치, 시트 히팅 장치, 시트 조절 장치 또는 조명 장치 중 적어도 하나를 제어할 수 있다.
컨트롤러(250)는 전술한 동작 및 후술하는 동작을 수행하기 위한 프로그램이 저장된 적어도 하나의 메모리와 저장된 프로그램을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
도 3을 참조하면, 일 실시예에 따른 음성 인식 시스템(100)은 서버(1)에 마련될 수 있다. 따라서, 차량(2)에 입력된 사용자 발화는 서버(1)의 통신 모듈(140)에 전달되고, 서버(1)에 마련된 음성 인식 시스템(100)에서 음성 신호를 처리하면 통신 모듈(140)이 그 처리 결과를 다시 차량(2)에 전달할 수 있다.
또는, 일 실시예에 따른 음성 인식 시스템(100)의 구성 요소 중 일부는 차량(2)에 마련되고, 다른 일부는 서버(1)에 마련되는 것도 가능하다.
일 예로, 음성 인식 모듈(110)은 차량(2)에 마련되고 자연어 이해 모듈(120)과 컨트롤 모듈(130)은 서버(1)에 마련될 수 있다.
다른 예로, 음성 인식 모듈(110)과 컨트롤 모듈(130)은 차량(2)에 마련되고 자연어 이해 모듈(120)은 서버(1)에 마련되는 것도 가능하고, 음성 인식 모듈(110)과 자연어 이해 모듈(120)은 서버(1)에 마련되고 컨트롤 모듈(130)은 차량(2)에 마련되는 것도 가능하다.
또 다른 예로, 음성 인식 시스템(100)이 차량(2)에 마련되는 것도 가능하다.
전술한 바와 같이, 음성 인식 시스템(100)의 구성요소 전부 또는 일부가 차량(2)에 마련되는 것도 가능하나, 후술하는 실시예에서는 도 3에 도시된 바와 같이 음성 인식 시스템(100)이 서버(1)에 마련되는 경우를 예로 들어 설명하기로 한다.
도 4 및 도 5는 차량의 사용자가 일 실시예에 따른 음성 인식 시스템을 통해 원하는 서비스를 제공받는 과정을 나타낸 도면이다.
사용자가 의도하는 제어가 "홍길동에게 전화걸기"인 경우에, 사용자는 도 4에 도시된 바와 같이 "홍길동에게 전화 걸어줘"와 같은 발화를 마이크(210)에 입력할 수 있다.
입력된 사용자의 발화는 음성 인식 시스템(100)에 전달되고, 사용자의 발화로부터 인텐트 [call]와 엔티티 [홍길동]를 추출한 음성 인식 시스템(100)은 추출된 인텐트에 대응되는 제어를 수행하기 전에 해당 제어가 사용자가 의도하는 제어가 맞는지 확인하는 과정을 거칠 수 있다.
예를 들어, 컨트롤 모듈(130)에서 이를 확인하기 위한 시스템 응답을 생성하여 차량(1)에 전달할 수 있고, 차량의 스피커(220)를 통해 "홍길동에게 전화 걸까요?"와 같은 시스템 응답이 출력될 수 있다.
사용자는 출력된 시스템 응답을 듣고, 음성 인식 시스템(100)이 사용자의 의도를 제대로 파악했는지 확인할 수 있다. 시스템 응답에 포함된 제어 내용이 사용자가 의도한 것이 맞는 경우에는 "응" 또는 "예"와 같은 긍정의 발화를 입력할 수 있다.
또는, 사용자가 의도하는 제어가 "앞좌석 열선 시트 온(on)"인 경우에, 사용자는 도 5에 도시된 바와 같이 "앞좌석 열선시트 켜줘"와 같은 발화를 마이크(210)에 입력할 수 있다.
입력된 사용자의 발화는 음성 인식 시스템(100)에 전달되고, 사용자의 발화로부터 인텐트 [Turn on. Seat heater]와 엔티티 [앞좌석]를 추출한 음성 인식 시스템(100)은 추출된 인텐트에 대응되는 제어를 수행하기 전에 해당 제어가 사용자가 의도하는 제어가 맞는지 확인하는 과정을 거칠 수 있다.
예를 들어, 컨트롤 모듈(130)은 사용자의 의도가 앞좌석 중 운전석의 열선 시트는 켜는 것인지, 보조석의 열선 시트를 켜는 것인지 도는 둘 다 켜는 것인지 확인하기 위한 시스템 응답을 생성하여 차량(1)에 전달할 수 있다. 도 5의 예시에 따르면, 차량(1)은 차량의 스피커(220)를 통해 "운전석 열선 시트 켤까요?"와 같은 시스템 응답을 출력할 수 있다.
사용자는 출력된 시스템 응답을 듣고, 음성 인식 시스템(100)이 사용자의 의도를 제대로 파악했는지 확인할 수 있다. 시스템 응답에 포함된 제어 내용이 사용자가 의도한 것이 맞는 경우에는 "응" 또는 "예"와 같은 긍정의 발화를 입력할 수 있으나, 시스템 응답에 포함된 제어 내용이 사용자가 의도한 것이 아닌 경우에는 도 5의 예시와 같이 부정의 발화를 입력할 수 있다.
이와 같이, 사용자가 음성 인식을 통해 원하는 서비스를 제공받기 까지 2회 이상의 대화를 주고 받아야 하는 경우가 자주 발생한다. 특히, 전술한 도 4 및 도 5에 도시된 바와 같이, "예"나 "아니오"와 같은 단순한 명령이 반복적으로 입력되는 경우가 많다.
음성 인식 시스템(100)은 사용자의 편의를 위해 마련된 것이나, 제어 대상 또는 제어 내용을 특정하기 위해 반복되는 대화는 오히려 사용자의 피로감을 유발하여 편의성을 떨어뜨리는 요인이 될 수 있다.
따라서, 일 실시예에 따른 음성 인식 시스템(100)은 사용자로 하여금 주변의 물체를 두드리는 간단한 동작으로 명령의 발화를 대체하게 함으로써 음성 인식 시스템(100)의 사용성 저하를 방지할 수 있다. 이하, 이와 관련된 구체적인 동작들을 설명한다.
도 6 및 도 7은 일 실시예에 따른 음성 인식 시스템의 사용자가 탭 신호를 입력하는 동작의 예시를 나타낸 도면이다.
도 6에 도시된 바와 같이, 사용자가 운전자인 경우에는 사용자의 손이 주로 스티어링 휠(201)에 위치하게 된다. 따라서, 차량(2)이 주행 중인 경우이더라도 스티어링 휠(201)을 두드리는 동작은 사용자가 손쇱게 수행할 수 있다.
또는, 도 7에 도시된 바와 같이, 사용자의 운전 습관에 따라 운전석과 보조석 사이의 암레스트(또는 센터 콘솔 박스)(203)에 팔을 올려놓고 운전하는 경우도 있다. 이러한 경우에는 사용자가 암레스트(203)를 두드리는 동작을 손쉽게 수행할 수 있다.
또한, 이 외에도 사용자의 운전 습관에 따라서 변속 레버(205), 도어 핸들 등에 손을 올려놓고 운전하는 경우도 있고, 차량(2)의 구성요소 외에 사용자의 신체 일부에 손을 올려놓고 운전하는 경우도 있다. 이와 같은 사용자 주변의 물체들은 모두 사용자가 차량(2)의 주행 중에도 손쉽게 두드릴 수 있는 위치에 해당한다.
일 실시예에 따른 음성 인식 시스템(100)은 사용자가 주변의 물체를 두드림(tapping)으로써 발생하는 탭 신호(tap signal)를 사용자의 명령으로 인식할 수 있다. 즉, 미리 등록된 탭 신호가 마이크(210)에 입력되면, 음성 인식 시스템(100)은 입력된 탭 신호에 대응되는 사용자의 명령에 따라 제어를 수행할 수 있다.
도 8은 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 탭 신호를 등록하는 과정을 나타낸 순서도이고, 도 9, 도 12, 도 13 및 도 14는 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 탭 신호의 등록을 위해 차량의 디스플레이에 표시되는 화면의 예시를 나타낸 도면이고, 도 10은 탭 신호로부터 추출되는 특징 성분의 예시를 나타낸 도면이며, 도 11은 일 실시예에 따른 음성 인식 시스템의 메모리에 저장되는 정보의 예시를 나타낸 도면이다.
일 실시예에 따른 음성 인식 서비스의 제공 방법은, 차량(2)에 의해 수행될 수도 있고 음성 인식 시스템(100)에 의해 수행될 수도 있으며, 일부 단계는 차량(2)에 의해 수행되고, 다른 일부 단계는 음성 인식 시스템(100)에 수행될 수도 있다.
도 8을 참조하면, 탭 신호를 등록하기 위해 먼저 사용자가 입력한 탭 신호를 수신한다(1010).
탭 신호를 등록 하기 위해, 사용자는 차량(2)에 마련된 입력 장치(260) 통해 탭 신호 등록 모드를 선택할 수 있다. 탭 신호 등록 모드가 선택되면, 디스플레이(230)에는 도 9에 도시된 바와 같이 원하는 탭 신호를 입력해달라는 취지의 가이드 정보가 시각적으로 출력될 수 있다.
컨트롤러(250)는 디스플레이(230)가 전술한 가이드 정보를 출력하도록 제어할 수 있고, 마이크(210)를 온(on) 시킬 수 있다. 도 9의 예시에서는 AVN 디스플레이에 가이드 정보를 표시하였으나, 개시된 발명의 실시예가 이에 제한되는 것은 아니다. 클러스터 디스플레이나 헤드업 디스플레이에 가이드 정보가 표시될 수도 있고, 가이드 정보가 스피커(220)를 통해 청각적으로 출력되는 것도 가능하다.
사용자는 주변의 물체를 두드림으로써 탭 신호를 입력할 수 있다. 사용자 주변의 물체는 차량(2)의 구성요소일 수도 있고, 사용자의 신체 일부일 수도 있다. 예를 들어, 탭 신호는 스티어링 휠, 암레스트, 도어 핸들 또는 변속 레버 등을 두드림으로써 발생될 수 있고, 사용자의 허벅지를 두드림으로써 발생될 수도 있다.
입력된 탭 신호는 음성 인식 시스템(100)으로 전달될 수 있다. 예를 들어, 차량(2)의 통신부(240)가 탭 신호를 전송할 수 있고, 서버(1)의 통신부(140)가 탭 신호를 수신할 수 있다.
음성 인식 시스템(100)의 컨트롤 모듈(130)은 수신된 탭 신호의 특징 성분을 추출할 수 있다(1020).
물체를 두드림으로써 발생되는 탭 신호는 도 10에 도시된 바와 같이, 물체를 두드리는 횟수에 따라 특징 성분이 반복되는 파형을 갖는다. 따라서, 탭 신호는 특징 성분(c1)과 탭 신호에 포함된 특징 성분의 개수(c2)에 의해 정의될 수 있다.
탭 신호의 특징 성분(c1)은 두드리는 물질, 두드리는 방식 또는 두드리는 세기에 따라 달라질 수 있고, 탭 신호에 포함된 특징 성분의 개수(c2)는 물체를 두드리는 횟수에 따라 달라질 수 있다. 따라서, 사용자는 두드리는 물체의 종류 또는 물체를 두드리는 횟수 중 적어도 하나를 달리하여 다른 탭 신호를 입력할 수 있다.
탭 신호의 특징 성분이 추출되면, 추출된 특징 성분을 탭 신호 데이터베이스(DB)와 비교한다(1030).
도 11을 참조하면, 음성 인식 시스템(100)의 메모리에는 탭 신호 별로 명령이 맵핑되어 저장되어 탭 신호 데이터베이스를 구현할 수 있다. 탭 신호에 맵핑된 명령은 해당 탭 신호가 입력되었을 때 수행될 명령을 의미할 수 있다.
전술한 바와 같이, 탭 신호는 특징 성분(c1)과 특징 성분의 개수(c2)에 의해 정의될 수 있다. 동일한 특징 성분(c1)을 갖는 탭 신호들이더라도 탭 신호에 포함된 특징 성분의 개수(c2)가 다르면 다른 탭 신호로 등록된다. 따라서, 하나의 특징 성분(c1)에 대해서도 그 개수(c2)를 달리하여 여러 개의 명령이 맵핑되어 등록될 수 있다.
컨트롤 모듈(130)은 입력된 탭 신호의 특징 성분(c1)을 탭 신호 데이터베이스와 비교하여 이미 등록된 특징 성분인지 여부를 판단할 수 있다(1040).
이미 등록된 특징 성분인 경우(1040의 예)에는, 1개부터 N개(N은 2 이상의 정수)까지 모두 등록되었는지 판단한다(1070). 여기서, N개는 하나의 탭 신호에 포함되는 특징 성분에 대한 임계 개수를 의미한다.
1개부터 N개까지 모두 등록되지 않은 경우(1070의 아니오)에는, 입력된 탭 신호에 맵핑할 명령을 수신한다(1050).
이를 위해, 도 12에 도시된 바와 같이, 차량(2)의 디스플레이(230)에 명령의 선택을 가이드하기 위한 정보를 시각적으로 출력할 수 있다. 사용자는 디스플레이(230)에 표시된 화면을 참조하여, 윈도우 제어, 시트 제어, 조명 제어 또는 내비게이션 제어 등의 명령을 선택할 수 있다. 즉, 시스템의 발화에 대한 응답인 예/아니오와 같은 단순한 명령 뿐만 아니라 복잡한 제어와 관련된 명령도 탭 신호에 맵핑하여 등록할 수 있다.
도 12에 도시된 바와 같이 이미 등록된 명령은 제외하고 표시하는 것도 가능하고, 이미 등록된 명령도 함께 표시하여 이미 등록된 명령에 맵핑된 탭 신호를 변경할 수 있도록 가이드하는 것도 가능하다.
사용자는 음성 또는 수동 입력을 통해 원하는 명령을 선택할 수 있고, 선택된 명령은 음성 인식 시스템(100)에 전달될 수 있다.
컨트롤 모듈(130)은 수신된 명령과 탭 신호를 맵핑하여 등록할 수 있다(1060).
이 때, 컨트롤 모듈(130)은 입력된 탭 신호에 포함된 특징 성분의 개수와 무관하게, 즉 사용자가 주변의 물체를 두드린 횟수와 무관하게 현재 탭 신호 데이터베이스에 등록되어 있는 탭 신호에 따라, 등록할 탭 신호의 특징 성분의 개수를 결정할 수 있다.
예를 들어, 입력된 탭 신호의 특징 성분이 이미 탭 신호 데이터베이스에 등록되어 있는 경우, 컨트롤 모듈(130)은 등록 가능한 최소 개수로 탭 신호를 등록할 수 있다. 전술한 도 11의 예시에 따르면, 입력된 탭 신호의 특징 성분을 갖는 탭 신호가 이미 등록되어 있고, 이미 등록된 탭 신호는 특징 성분을 1개 갖는 경우(c2=1)에 동일한 특징 성분을 2개 갖는 탭 신호부터 N개 갖는 탭 신호까지 신규로 등록이 가능하다.
주변의 물체를 두드리는 횟수는 적을 수록 사용자의 입력이 용이하다. 따라서, 일 실시예에 따른 컨트롤 모듈(130)은 등록 가능한 개수 중 최소 개수인 2개의 특징 성분을 갖는 탭 신호를 신규로 등록할 수 있다.
한편, 음성 인식 시스템(100)은 등록할 탭 신호에 관한 정보를 사용자에게 제공할 수 있다. 일 예로, 도 13에 도시된 바와 같이, 디스플레이(230)에 2회 두드림으로 등록하겠다는 취지의 가이드 정보가 시각적으로 출력될 수 있다.
도 13의 예시에서는 AVN 디스플레이에 가이드 정보를 표시하였으나, 개시된 발명의 실시예가 이에 제한되는 것은 아니다. 클러스터 디스플레이나 헤드업 디스플레이에 가이드 정보가 표시될 수도 있고, 가이드 정보가 스피커(220)를 통해 청각적으로 출력되는 것도 가능하다.
이 때, 사용자는 디스플레이(230)에 표시된 다음 버튼을 선택하여 등록을 완료할 수도 있고, 아니오 버튼을 선택하여 두드림의 횟수를 변경할 수도 있다.
다시 도 8을 참조하면, 입력된 탭 신호의 특징 성분이 1개에서 N개까지 모두 등록된 경우에는(1070의 예), 다른 탭 신호를 등록하도록 안내할 수 있다(1080).
이 경우는 입력된 탭 신호의 특징 성분으로는 더 이상 추가 명령을 등록할 수 없다. 따라서, 도 14에 도시된 바와 같이, 디스플레이(230)에 다른 탭 신호를 입력하라는 취지의 가이드 정보를 표시할 수 있다.
도 14의 예시에서는 AVN 디스플레이에 가이드 정보를 시각적으로 출력하였으나, 개시된 발명의 실시예가 이에 제한되는 것은 아니다. 클러스터 디스플레이나 헤드업 디스플레이에 가이드 정보가 표시될 수도 있고, 가이드 정보가 스피커(220)를 통해 청각적으로 출력되는 것도 가능하다.
도 15는 일 실시예에 따른 음성 인식 서비스 제공 방법에 있어서, 사용자로부터 탭 신호 또는 음성 신호를 수신하여 사용자의 의도에 대응되는 제어를 수행하는 과정을 나타낸 순서도이다.
도 15를 참조하면, 음성 인식 시스템(100)은 사용자로부터 오디오 신호를 수신한다(1110).
오디오 신호는 차량(2)의 마이크(210)에 입력된 신호로서, 사용자의 음성 신호를 포함할 수도 있고, 사용자가 주변의 물체를 두드림으로써 발생된 탭 신호를 포함할 수도 있다.
한편, 입력된 오디오 신호에는 주변의 다른 동승자 또는 물체가 발생시키는 사운드가 포함될 수 있고, 이러한 사운드는 탭 신호의 인식 성능을 떨어뜨릴 수 있다.
전술한 바와 같이, 차량(2)에는 복수 개의 마이크(210)가 포함될 수 있다. 예를 들어, 헤드라이닝의 룸미러(207)가 장착된 영역에 운전자의 발화를 수신하기 위한 운전석 마이크(211)와 보조석 동승자의 발화를 수신하기 위한 보조석 마이크(212)가 마련될 수 있다.
컨트롤러(250)는 운전석 마이크(211)에 입력된 오디오 신호와 보조석 마이크(212)에 입력된 오디오 신호를 모두 음성 인식 시스템(100)으로 전송할 수 있다.
음성 인식 시스템(100)의 컨트롤 모듈(130)은 보조석 마이크(212)에 입력된 오디오 신호를 이용하여 운전석 마이크(211)에 입력된 오디오 신호에 포함된 노이즈를 제거할 수 있다. 노이즈가 제거된 오디오 신호에 대해 후술하는 처리가 수행될 수 있다.
이러한 노이즈 제거 과정을 통해, 사용자가 입력하는 탭 신호와 주변의 다른 동승자 또는 물체가 발생시키는 사운드를 분리함으로써, 탭 신호의 인식 성능을 향상시킬 수 있다. 입력된 오디오 신호가 음성 신호인 경우에도 노이즈 제거를 통해 음성 인식 성능이 향상될 수 있다.
반대로, 오디오 신호를 입력하는 주체가 보조석의 동승자인 경우에는 운전석 마이크(211)에 입력된 오디오 신호를 이용하여 보조석 마이크(212)에 입력된 오디오 신호에 포함된 노이즈를 제거할 수도 있다.
오디오 신호를 입력하는 주체는 웨이크업 워드가 입력된 마이크가 어느 마이크인지에 기초하여 판단될 수도 있고, 운전석과 보조석에 각각 마련된 PTT(Push to Talk) 버튼 중 어느 버튼에 입력이 수신되었는지에 기초하여 판단될 수도 있다.
전술한 노이즈 제거는 탭 신호를 등록하는 과정에서도 동일하게 수행 가능하다.
물체를 두드려 발생된 탭 신호는 사용자의 발화에 의해 입력되는 음성 신호와는 그 주파수 성분이 전혀 다르다. 예를 들어, 음성 신호는 일반적으로 2 개 이상의 단어로 이루어지고 각 단어마다 파고가 생성되어 주파수 성분이 복잡하다. 반면에, 타격음(tapping sound)은 짧은 순간의 사운드 성분만 존재하기 때문에, 음성 신호와 용이하게 구별이 가능하다.
따라서, 오디오 신호가 수신되면, 컨트롤 모듈(130)은 수신된 오디오 신호가 탭 신호를 포함하는지 또는 음성 신호를 포함하는지 여부를 판단할 수 있다.
판단 결과, 입력된 오디오 신호에 탭 신호가 포함된 경우(1120의 예), 컨트롤러(130)는 탭 신호를 분석한다(1130).
전술한 바와 같이, 컨트롤러(130)는 탭 신호로부터 특징 성분(c1)을 추출하고, 탭 신호에 특징 성분(c2)이 몇 개 포함되는지 카운트할 수 있다.
컨트롤러(130)는 탭 신호 데이터베이스를 검색하고(1140), 입력된 오디오 신호에 맵핑된 명령을 결정할 수 있다(1150).
도 11의 예시를 다시 참조하면, 입력된 탭 신호가 첫 번째 행(row)의 특징 성분을 1개(c2=1) 갖는 신호인 경우에는, 탭 신호에 맵핑되어 저장된 명령이 "예"가 된다. 즉, 출력된 시스템 발화에 대한 긍정의 응답이 오디오 신호에 맵핑된 명령으로 결정될 수 있다.
한편, 입력된 탭 신호가 탭 신호 데이터베이스에 등록된 탭 신호가 아닌 경우에는, 앞서 도 8을 참조하여 설명한 탭 신호를 등록하는 과정을 수행할 수도 있고, 탭 신호를 다시 입력하라는 가이드 정보를 출력할 수도 있다.
명령이 결정되면, 컨트롤러(130)는 결정된 명령을 수행하기 위한 제어 신호를 생성할 수 있다(1160). 생성된 제어 신호는 차량(2)에 전달될 수 있고, 차량(2)의 컨트롤러(250)는 전달된 제어 신호에 따라 차량(2)의 구성요소를 제어하여 사용자가 의도한 서비스를 제공할 수 있다.
입력된 오디오 신호에 음성 신호가 포함된 경우에는(1120의 아니오), 음성 인식 프로세스를 수행할 수 있다(1160).
음성 인식 프로세스는 음성 신호를 텍스트로 변환하는 음성 인식 모듈(110)과 텍스트에 대응되는 사용자 의도를 판단하는 자연어 이해 모듈(120)에 의해 수행될 수 있다.
음성 인식 프로세스를 통해 인텐트가 추출되면, 컨트롤 모듈(130)은 추출된 인텐트에 대응되는 제어를 수행하기 위한 제어 신호를 생성할 수 있다(1160).
전술한 예시에서는 음성 인식 시스템(100)과 차량(2)이 직접 연결되어 필요한 신호를 주고 받는 경우를 예로 들었다. 그러나, 음성 인식 시스템(100)이 사용자의 모바일 기기를 통해 차량(2)과 연결되는 것도 가능하다. 이러한 경우, 전술한 가이드 정보는 모바일 기기를 통해 시각적 또는 청각적으로 출력될 수 있다. 또한, 오디오 신호 역시 모바일 기기의 마이크를 통해 입력될 수 있다.
사용자가 의도하는 제어가 차량에 대한 제어인 경우에는, 모바일 기기가 음성 인식 시스템(100)로부터 수신한 제어 신호를 차량(2)에 전달할 수 있다. 사용자가 의도하는 제어가 특정 정보 또는 특정 컨텐츠의 제공인 경우에는 차량(2)에 제어 신호를 전달할 수도 있고, 모바일 기기의 스피커나 디스플레이를 통해 특정 정보나 특정 컨텐츠를 출력하는 것도 가능하다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안된다.
100: 음성 인식 시스템
10: 음성 처리 모듈
110: 음성 인식 모듈
120: 자연어 이해 모듈
130: 결과 처리 모듈
140: 통신 모듈
1: 서버
2: 차량
210: 마이크
220: 스피커
230: 디스플레이
240: 통신 모듈
250: 컨트롤러
260: 입력 장치

Claims (20)

  1. 차량에 탑승한 사용자의 음성 신호로부터 상기 사용자가 의도하는 제어를 수행하기 위해 필요한 정보를 추출하는 음성 처리 모듈;
    상기 사용자가 의도하는 제어를 수행하기 위한 제어 신호를 생성하는 컨트롤 모듈; 및
    탭(tap) 신호와 그에 대응되는 명령을 맵핑시켜 저장하는 메모리;를 포함하고,
    상기 컨트롤 모듈은,
    마이크를 통해 입력된 오디오 신호에 상기 메모리에 저장된 탭 신호가 포함되면, 상기 저장된 탭 신호에 대응되는 명령에 기초하여 상기 제어 신호를 생성하는 음성 인식 시스템.
  2. 제 1 항에 있어서,
    상기 탭 신호는,
    상기 사용자가 탑승한 차량의 구성요소 또는 상기 사용자의 신체 부위를 포함하는 주변 물체를 두드림(tapping)으로써 발생하는 신호인 음성 인식 시스템.
  3. 제 1 항에 있어서,
    상기 탭 신호는,
    상기 탭 신호의 특징 성분 및 상기 탭 신호에 포함되는 특징 성분의 개수에 의해 정의되는 음성 인식 시스템.
  4. 제 3 항에 있어서,
    상기 탭 신호의 특징 성분은, 상기 사용자가 두드리는 주변 물체의 종류에 따라 달라지고,
    상기 탭 신호의 특징 성분의 개수는, 상기 사용자가 상기 주변 물체를 두드리는 횟수에 따라 달라지는 음성 인식 시스템.
  5. 제 2 항에 있어서,
    상기 차량의 구성요소는,
    상기 차량의 스티어링 휠, 도어 핸들, 변속 레버 또는 암레스트 중 적어도 하나를 포함하는 음성 인식 시스템.
  6. 제 1 항에 있어서,
    상기 컨트롤 모듈은,
    상기 탭 신호를 상기 메모리에 저장하는 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호와 상기 사용자에 의해 선택된 명령을 맵핑(mapping)하여 상기 메모리에 저장하는 음성 인식 시스템.
  7. 제 6 항에 있어서,
    상기 컨트롤 모듈은,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수를 등록하도록 가이드 정보를 생성하는 음성 인식 시스템.
  8. 제 7 항에 있어서,
    상기 컨트롤 모듈은,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하고, 상기 메모리에 상기 특징 성분을 1개 포함하는 탭 신호부터 상기 특징 성분을 N개(N은 2 이상의 정수이고, 임계 개수를 나타냄) 포함하는 탭 신호까지 저장되어 있으면, 다른 탭 신호를 입력하도록 가이드 정보를 생성하는 음성 인식 시스템.
  9. 제 7 항에 있어서,
    상기 컨트롤 모듈은,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수 중 가장 적은 개수를 등록하는 음성 인식 시스템.
  10. 제 1 항에 있어서,
    상기 마이크는,
    운전석 마이크와 보조석 마이크를 포함하고,
    상기 컨트롤 모듈은,
    상기 보조석 마이크를 통해 입력된 오디오 신호에 기초하여 상기 운전석 마이크를 통해 입력된 오디오 신호의 노이즈를 제거하는 음성 인식 시스템.
  11. 차량에 위치하는 마이크에 입력된 오디오 신호를 수신하는 단계;
    상기 오디오 신호에 탭 신호가 포함되는지 또는 음성 신호가 포함되는지 판단하는 단계;
    상기 오디오 신호에 탭 신호가 포함되면, 상기 탭 신호에 맵핑된 명령을 결정하는 단계; 및
    상기 탭 신호에 맵핑된 명령에 대응되는 제어를 수행하기 위한 제어 신호를 생성하는 단계;를 포함하는 음성 인식 서비스 제공 방법.
  12. 제 11 항에 있어서,
    상기 탭 신호는,
    상기 사용자가 탑승한 차량의 구성요소 또는 상기 사용자의 신체 부위를 포함하는 주변 물체를 두드림(tapping)으로써 발생하는 신호인 음성 인식 서비스 제공 방법.
  13. 제 11 항에 있어서,
    상기 탭 신호는,
    상기 탭 신호의 특징 성분 및 상기 탭 신호에 포함되는 특징 성분의 개수에 의해 정의되는 음성 인식 서비스 제공 방법.
  14. 제 13 항에 있어서,
    상기 탭 신호의 특징 성분은, 상기 사용자가 두드리는 주변 물체의 종류에 따라 달라지고,
    상기 탭 신호의 특징 성분의 개수는, 상기 사용자가 상기 주변 물체를 두드리는 횟수에 따라 달라지는 음성 인식 서비스 제공 방법.
  15. 제 12 항에 있어서,
    상기 차량의 구성요소는,
    상기 차량의 스티어링 휠, 도어 핸들, 변속 레버 또는 암레스트 중 적어도 하나를 포함하는 음성 인식 서비스 제공 방법.
  16. 제 11 항에 있어서,
    상기 탭 신호를 메모리에 저장하는 등록 모드에서, 마이크를 통해 입력된 탭 신호와 상기 사용자에 의해 선택된 명령을 맵핑(mapping)하여 상기 메모리에 저장하는 단계;를 더 포함하는 음성 인식 서비스 제공 방법.
  17. 제 16 항에 있어서,
    상기 메모리에 저장하는 단계는,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수를 등록하도록 가이드 정보를 생성하는 것을 포함하는 음성 인식 서비스 제공 방법.
  18. 제 17 항에 있어서,
    상기 메모리에 저장하는 단계는,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하고, 상기 메모리에 상기 특징 성분을 1개 포함하는 탭 신호부터 상기 특징 성분을 N개(N은 2 이상의 정수이고, 임계 개수를 나타냄) 포함하는 탭 신호까지 저장되어 있으면, 다른 탭 신호를 입력하도록 가이드 정보를 생성하는 것을 더 포함하는 음성 인식 서비스 제공 방법.
  19. 제 17 항에 있어서,
    상기 메모리에 저장하는 단계는,
    상기 등록 모드에서, 상기 마이크를 통해 입력된 탭 신호의 특징 성분이 상기 메모리에 저장된 탭 신호의 특징 성분과 동일하면, 상기 메모리에 저장된 탭 신호의 특징 성분의 개수와 다른 개수 중 가장 적은 개수를 등록하는 것을 더 포함하는 음성 인식 서비스 제공 방법.
  20. 제 11 항에 있어서,
    상기 마이크는,
    운전석 마이크와 보조석 마이크를 포함하고,
    상기 보조석 마이크를 통해 입력된 오디오 신호에 기초하여 상기 운전석 마이크를 통해 입력된 오디오 신호의 노이즈를 제거하는 단계;를 더 포함하는 음성 인식 서비스 제공 방법.
KR1020220009548A 2022-01-21 2022-01-21 음성 인식 시스템 및 음성 인식 서비스 제공 방법 KR20230113081A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020220009548A KR20230113081A (ko) 2022-01-21 2022-01-21 음성 인식 시스템 및 음성 인식 서비스 제공 방법
US18/076,207 US20230238020A1 (en) 2022-01-21 2022-12-06 Speech recognition system and a method for providing a speech recognition service
CN202211565203.6A CN116486821A (zh) 2022-01-21 2022-12-07 语音识别***和提供语音识别服务的方法
DE102022213306.4A DE102022213306A1 (de) 2022-01-21 2022-12-08 Spracherkennungssystem und verfahren zur bereitstellung eines spracherkennungsdienstes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220009548A KR20230113081A (ko) 2022-01-21 2022-01-21 음성 인식 시스템 및 음성 인식 서비스 제공 방법

Publications (1)

Publication Number Publication Date
KR20230113081A true KR20230113081A (ko) 2023-07-28

Family

ID=87068643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220009548A KR20230113081A (ko) 2022-01-21 2022-01-21 음성 인식 시스템 및 음성 인식 서비스 제공 방법

Country Status (4)

Country Link
US (1) US20230238020A1 (ko)
KR (1) KR20230113081A (ko)
CN (1) CN116486821A (ko)
DE (1) DE102022213306A1 (ko)

Also Published As

Publication number Publication date
CN116486821A (zh) 2023-07-25
US20230238020A1 (en) 2023-07-27
DE102022213306A1 (de) 2023-07-27

Similar Documents

Publication Publication Date Title
CA2546913C (en) Wirelessly delivered owner's manual
US20210358496A1 (en) A voice assistant system for a vehicle cockpit system
US9756161B2 (en) Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle
EP2045140B1 (en) Adjustment of vehicular elements by speech control
JP2017090612A (ja) 音声認識制御システム
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
KR20230113081A (ko) 음성 인식 시스템 및 음성 인식 서비스 제공 방법
JP7392827B2 (ja) 音声認識装置及び音声認識方法
US20230267923A1 (en) Natural language processing apparatus and natural language processing method
US20230298581A1 (en) Dialogue management method, user terminal and computer-readable recording medium
US20230206918A1 (en) Speech Recognition System and Method for Providing Speech Recognition Service
KR20200117317A (ko) 대화 시스템 및 대화 처리 방법
CA2737850C (en) Wirelessly delivered owner's manual
US20240214332A1 (en) Chatbot service providing method and chatbot service providing system
US20230252987A1 (en) Vehicle and control method thereof
US20230282212A1 (en) User terminal, dialogue management system, control method of user terminal, and dialogue management method
US20230318727A1 (en) Vehicle and method of controlling the same
US20230335120A1 (en) Method for processing dialogue and dialogue system
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법
KR20240053428A (ko) 대화 관리 방법, 대화 관리 시스템 및 컴퓨터로 판독 가능한 기록 매체
KR20220150640A (ko) 차량 및 그의 제어방법
JP2008298851A (ja) 音声入力処理装置および音声入力処理方法